Apache Spark Advanced 3.0
Описание курса
Программа для дата-инженеров и разработчиков, имеющих опыт работы с Apache Spark.
Программа включает: 8 занятий (по 2 занятия, 4 недели), 4 лабораторные работы
Участники: Дата инженеры, имеющие практический опыт работы с Apache Spark (от года) и желающие глубже изучить внутреннюю архитектуру проекта, а также получить опыт и знания, которые позволят ускорить обработку данных в существующих проектах.
Получаемые знания: Разработка коннекторов в Dataframe API с использованием Datasource v1 API, а также коннекторов в Spark Structured Streaming API, работа с org.apache.spark.sql.Row, py4j в pyspark, Scala UDF в pyspark, управление параллелизмом задач.
Требования к кандидатам: Опыт построения ETL и стриминг пайплайнов с помощью Apache Spark 2.4, практический опыт разработки на Scala, понимание архитектуры распределенных вычислений с использованием HDFS, YARN, знание основ TCP/IP
Подробнее о программе на нашем сайте