🎓 Выбирайте обучение по отзывам. Мы запустили рейтинг лучших онлайн-школ, чтобы находить качественные курсы стало еще проще. Cмотреть рейтинг
Учебный центр IBS

EAS-017 Основы Apache Spark

Начало: По мере набора группы
Длительность: 1 неделя
СертификатОнлайн

Описание курса

Обучайтесь основам Apache Spark и используйте его для эффективной обработки больших данных. В данном курсе вы узнаете все необходимое для работы с фреймворком Apache Spark, включая программирование на Python, создание табличных запросов с помощью Spark SQL и обработку данных с использованием RDD и DataFrame. Уникальное сочетание теории и практики поможет вам быстро освоить все нюансы Spark и применить их на реальных проектах.

  • Map/Reduce и Spark в Hadoop.
  • Примеры Spark в Lambda-архитектуре.
  • Кластеры для распределенной обработки данных.
  • Как запустить Spark.
  • Исполнители, задания, задачи в Spark.
  • В чем разница между SparkSession и SparkContext.
  • Как создавать и распараллеливать RDD.
  • Как трансформировать RDD.
  • Как анализировать и управлять обработкой RDD (план и DAG).
  • Как сохранять и хранить RDD в HDFS.
  • Как группировать и соединять RDD.
  • В чем разница между RDD и DataFrame.
  • Как создавать и распараллеливать DataFrame.
  • Как анализировать и управлять выполнением DataFrame (план и DAG).
  • Как сохранять DataFrame в HDFS.
  • Как читать/писать данные с файлового хранилища (HDFS, S3, FTP, локальной файловой системы).
  • Какой формат данных выбрать.
  • Как распараллеливать чтение/запись в JDBC.
  • Как создать DataFrame из MPP (Cassandra, Vertica, Greenplum).
  • Как работать с Kafka.
  • Как считать строки.
  • Как обрабатывать математические агрегации.
  • Как группировать строки.
  • Как правильно соединять DataFrames.
  • Как и зачем переключаться на Spark SQL.
  • Как работать с таблицей EXTERNAL.
  • Как работать с таблицей MANAGED.
  • Какие оконные функции существуют и как их использовать в Spark.
  • Когда не следует использовать оконные функции.
  • Что такое UDF, UDAF и как их использовать.
  • Как оптимизировать UDFs в PySpark.
  • Логические: как добавить фильтр.
  • Численные: как подсчитать сумму, произведение, статистику.
  • Строковые: как использовать регулярные выражения.
  • Комплексные: как работать со структурами, массивами.
  • Как работать с данными.
  • Недостаточно памяти.
  • Маленькие файлы в HDFS.
  • Асимметричные данные.
  • Медленные соединения.
  • Трансляция больших таблиц.
  • Совместное использование ресурсов.
  • Новые механизмы оптимизации: AQE и DPP.
  • Оркестраторы.
  • Устройство Airflow.
  • Встроенные операторы Airflow.
  • SparkSubmitOperator.

Отзывы о курсе

Отзывов пока нет
Будьте первым, напишите отзыв и поставьте оценку этому курсу.