Логотип НетологияНетология
Дата-инженер
16 мес
Data Engineering
Инженерия данных
SQL
Python
Apache Hadoop
PostgreSQL
Apache Airflow
Apache NiFi
Apache Spark
ClickHouse
ETL
DWH
NumPy
Pandas
Redis
Извлечение данных
Kafka Streams DSL
DataFrame API
118 800 ₽
208 400 ₽
-43%
Логотип OTUSOTUS
Spark Developer
4 мес
Apache Spark
Scala
Apache Hadoop
Kubernetes
Big Data
Pandas
Apache Hive
DataFrame API
93 000 ₽
Логотип Учебный центр IBSУчебный центр IBS
EAS-017 Основы Apache Spark
1 нед
Apache Spark
Python
Apache Kafka
Apache Cassandra
Big Data
Data Engineering
SQL
DataFrame API
49 700 ₽

Популярные направления

Популярные курсы Аналитики и Data Science

Бесплатные курсы Аналитики и Data Science

Курсы Аналитики и Data Science с трудоустройством

ТОП онлайн-курсов по DataFrame API

1. Дата-инженер

Обучение профессии Data Engineer в Нетологии с дипломом о профессиональной переподготовке. Программа обучения онлайн, помощь при трудоустройстве.
Школа: Нетология
Дата начала: По мере набора группы
Длительность: 16 месяцев
Стоимость курса: 118 800 ₽
Цена без скидки: 208 400 ₽
Рассрочка: Да
Формат занятий: Онлайн
Помощь с трудоустройством: Нет
Сертификат об окончании: Да

2. Spark Developer

Углубленный курс по самым мощным инструментам обработки больших данных.
Школа: OTUS
Дата начала: По мере набора группы
Длительность: 4 месяца
Стоимость курса: 93 000 ₽
Цена без скидки: 93 000 ₽
Рассрочка: Да
Формат занятий: Онлайн
Помощь с трудоустройством: Нет
Сертификат об окончании: Да

3. EAS-017 Основы Apache Spark

Обучайтесь основам Apache Spark и используйте его для эффективной обработки больших данных. В данном курсе вы узнаете все необходимое для работы с фреймворком Apache Spark, включая программирование на Python, создание табличных запросов с помощью Spark SQL и обработку данных с использованием RDD и DataFrame. Уникальное сочетание теории и практики поможет вам быстро освоить все нюансы Spark и применить их на реальных проектах.

  • Map/Reduce и Spark в Hadoop.
  • Примеры Spark в Lambda-архитектуре.
  • Кластеры для распределенной обработки данных.
  • Как запустить Spark.
  • Исполнители, задания, задачи в Spark.
  • В чем разница между SparkSession и SparkContext.
  • Как создавать и распараллеливать RDD.
  • Как трансформировать RDD.
  • Как анализировать и управлять обработкой RDD (план и DAG).
  • Как сохранять и хранить RDD в HDFS.
  • Как группировать и соединять RDD.
  • В чем разница между RDD и DataFrame.
  • Как создавать и распараллеливать DataFrame.
  • Как анализировать и управлять выполнением DataFrame (план и DAG).
  • Как сохранять DataFrame в HDFS.
  • Как читать/писать данные с файлового хранилища (HDFS, S3, FTP, локальной файловой системы).
  • Какой формат данных выбрать.
  • Как распараллеливать чтение/запись в JDBC.
  • Как создать DataFrame из MPP (Cassandra, Vertica, Greenplum).
  • Как работать с Kafka.
  • Как считать строки.
  • Как обрабатывать математические агрегации.
  • Как группировать строки.
  • Как правильно соединять DataFrames.
  • Как и зачем переключаться на Spark SQL.
  • Как работать с таблицей EXTERNAL.
  • Как работать с таблицей MANAGED.
  • Какие оконные функции существуют и как их использовать в Spark.
  • Когда не следует использовать оконные функции.
  • Что такое UDF, UDAF и как их использовать.
  • Как оптимизировать UDFs в PySpark.
  • Логические: как добавить фильтр.
  • Численные: как подсчитать сумму, произведение, статистику.
  • Строковые: как использовать регулярные выражения.
  • Комплексные: как работать со структурами, массивами.
  • Как работать с данными.
  • Недостаточно памяти.
  • Маленькие файлы в HDFS.
  • Асимметричные данные.
  • Медленные соединения.
  • Трансляция больших таблиц.
  • Совместное использование ресурсов.
  • Новые механизмы оптимизации: AQE и DPP.
  • Оркестраторы.
  • Устройство Airflow.
  • Встроенные операторы Airflow.
  • SparkSubmitOperator.
Дата начала: По мере набора группы
Длительность: 1 неделя
Стоимость курса: 49 700 ₽
Цена без скидки: 49 700 ₽
Рассрочка: Нет
Формат занятий: Онлайн
Помощь с трудоустройством: Нет
Сертификат об окончании: Да