
EAS-017 Основы Apache Spark
Начало: По мере набора группы
Длительность: 1 неделя
СертификатОнлайн
Описание курса
Обучайтесь основам Apache Spark и используйте его для эффективной обработки больших данных. В данном курсе вы узнаете все необходимое для работы с фреймворком Apache Spark, включая программирование на Python, создание табличных запросов с помощью Spark SQL и обработку данных с использованием RDD и DataFrame. Уникальное сочетание теории и практики поможет вам быстро освоить все нюансы Spark и применить их на реальных проектах.
- Map/Reduce и Spark в Hadoop.
- Примеры Spark в Lambda-архитектуре.
- Кластеры для распределенной обработки данных.
- Как запустить Spark.
- Исполнители, задания, задачи в Spark.
- В чем разница между SparkSession и SparkContext.
- Как создавать и распараллеливать RDD.
- Как трансформировать RDD.
- Как анализировать и управлять обработкой RDD (план и DAG).
- Как сохранять и хранить RDD в HDFS.
- Как группировать и соединять RDD.
- В чем разница между RDD и DataFrame.
- Как создавать и распараллеливать DataFrame.
- Как анализировать и управлять выполнением DataFrame (план и DAG).
- Как сохранять DataFrame в HDFS.
- Как читать/писать данные с файлового хранилища (HDFS, S3, FTP, локальной файловой системы).
- Какой формат данных выбрать.
- Как распараллеливать чтение/запись в JDBC.
- Как создать DataFrame из MPP (Cassandra, Vertica, Greenplum).
- Как работать с Kafka.
- Как считать строки.
- Как обрабатывать математические агрегации.
- Как группировать строки.
- Как правильно соединять DataFrames.
- Как и зачем переключаться на Spark SQL.
- Как работать с таблицей EXTERNAL.
- Как работать с таблицей MANAGED.
- Какие оконные функции существуют и как их использовать в Spark.
- Когда не следует использовать оконные функции.
- Что такое UDF, UDAF и как их использовать.
- Как оптимизировать UDFs в PySpark.
- Логические: как добавить фильтр.
- Численные: как подсчитать сумму, произведение, статистику.
- Строковые: как использовать регулярные выражения.
- Комплексные: как работать со структурами, массивами.
- Как работать с данными.
- Недостаточно памяти.
- Маленькие файлы в HDFS.
- Асимметричные данные.
- Медленные соединения.
- Трансляция больших таблиц.
- Совместное использование ресурсов.
- Новые механизмы оптимизации: AQE и DPP.
- Оркестраторы.
- Устройство Airflow.
- Встроенные операторы Airflow.
- SparkSubmitOperator.