Курс "Apache Spark на Python"

Улучшаемые навыки

Учёный по данным · Spark · Python

Где проходит обучение

Онлайн обучение

Начало учёбы и длительность

18 мая 2021 · 1 месяц

Стоимость

32 000 рублей

Описание курса

RDD. Dataframes. Spark ML. Spark Streaming

Что входит в курс:
- 5 лаб. Каждую неделю вам нужно будет решить лабораторную работу и суперачивку.
- 6 занятий (2,5 недель). C трансляциями в прямом эфире и видеозаписями в личном кабинете.

Для кого этот курс?

- Разработчики. У вас есть опыт программирования, но не хватает знаний и умений в работе с Apache Spark? В этом курсе вы научитесь выполнять ETL-операции над RDD, Dataframes, использовать Spark Streaming.
- Аналитики. Вы умеете анализировать данные, но требуется знание новых инструментов? Вы научитесь анализировать большие объемы данных при помощи Apache Spark, строить ML-модели в распределенной среде на кластере.
- Менеджеры. Вы занимаетесь развитием продукта или подразделения? В этом курсе вы получите погружение в Apache Spark, поймете юзкейсы использования этого инструмента, попробовав многие вещи своими руками.

Чему вы научитесь:
- RDD и Dataframes API. Научитесь загружать данные в Spark и преобразовывать их в RDD или датафреймы, а также совершать операции и трансформации над ними. Узнаете об отличиях этих двух форматов и в каких случаях их стоит использовать, а также про узкие и широкие трансформации, broadcast-переменные и аккумуляторы.
- Spark ML. Научитесь тренировать модели машинного обучения в Spark и делать при помощи них прогнозы. Узнаете, как создавать автоматизированные пайплайны в Spark ML из различных трансформаций.
- Spark GraphX. Научитесь работать с графовыми данными в Spark при помощи специальной библиотеки GraphX. Узнаете о том, как правильно анализировать данные из соцсетей.
- Spark Streaming. Научитесь работать в режиме near real-time при помощи Spark Streaming, подключаясь к Kafka как источнику данных и производя агрегации над ними.

Кластер. Этот курс посвящен Apache Spark, поэтому на нем вы будете работать с нашим Spark-кластером, который мы администрируем, конфигурируем, поддерживаем.

Преподаватель курса - Наталья Притыковская, Senior Data Scientist,
Mechanica AI.