RDD. Dataframes. Spark ML. Spark Streaming
Что входит в курс:
-
5 лаб. Каждую неделю вам нужно будет решить лабораторную работу и суперачивку.
-
6 занятий. C трансляциями в прямом эфире и видеозаписями в личном кабинете.
Для кого этот курс?-
Разработчики. У вас есть опыт программирования, но не хватает знаний и умений в работе с Apache Spark? В этом курсе вы научитесь выполнять ETL-операции над RDD, Dataframes, использовать Spark Streaming.
-
Аналитики. Вы умеете анализировать данные, но требуется знание новых инструментов? Вы научитесь анализировать большие объемы данных при помощи Apache Spark, строить ML-модели в распределенной среде на кластере.
-
Менеджеры. Вы занимаетесь развитием продукта или подразделения? В этом курсе вы получите погружение в Apache Spark, поймете юзкейсы использования этого инструмента, попробовав многие вещи своими руками.
Чему вы научитесь:
-
RDD и Dataframes API. Научитесь загружать данные в Spark и преобразовывать их в RDD или датафреймы, а также совершать операции и трансформации над ними. Узнаете об отличиях этих двух форматов и в каких случаях их стоит использовать, а также про узкие и широкие трансформации, broadcast-переменные и аккумуляторы.
-
Spark ML. Научитесь тренировать модели машинного обучения в Spark и делать при помощи них прогнозы. Узнаете, как создавать автоматизированные пайплайны в Spark ML из различных трансформаций.
-
Spark GraphX. Научитесь работать с графовыми данными в Spark при помощи специальной библиотеки GraphX. Узнаете о том, как правильно анализировать данные из соцсетей.
-
Spark Streaming. Научитесь работать в режиме near real-time при помощи Spark Streaming, подключаясь к Kafka как источнику данных и производя агрегации над ними.
Кластер. Этот курс посвящен Apache Spark, поэтому на нем
вы будете работать с нашим Spark-кластером, который мы администрируем, конфигурируем, поддерживаем.
Преподаватель курса - Наталья Притыковская, Senior Data Scientist,
Mechanica AI.
Точное расписание занятий будет ближе к сентябрю.