Скидка на вакансию
Скидка на первую вакансию
Акция до 22 декабря
Учебный центр IBS

EAS-015 Основы Hadoop

Для кого: Инженер по даннымДжуниор Мидл
Начало: По факту набора потока
Длительность: 1 неделя
Улучшаемые навыки:
СертификатОнлайн

Описание курса

Этот тренинг дает представление об устройстве Apache Hadoop и методах разработки приложений, обрабатывающих данные на его основе. Участники познакомятся с HDFS – стандартом де-факто для долговременного надежного хранения больших объемов данных фреймворком YARN, управляющим параллельным выполнением приложений на кластере и сопутствующими проектами, входящими в экосистему Hadoop: Hive, Spark, HBase.

Модуль 1

  • Архитектура, репликация, чтение и запись данных, команды HDFS.
  • Практика: подключение к кластеру, работа с файловой системой из shell и Hue.

Модуль 2

  • Практика: запуск приложений.

Модуль 3

  • Архитектура YARN, запуск приложений в YARN.
  • Практика: запуск приложений и наблюдение за кластером через UI.

Модуль 4

  • Архитектура, метаданные таблиц, форматы файлов, язык запросов HiveQL.
  • Практика (Hue, hive, beeline, Tez UI): создание таблиц, чтение и запись CSV, Parquet, ORC, партиционирование, SQL-запросы с агрегацией и соединениями.

Модуль 5

  • DataFrame/SQL, метаданные, форматы файлов, источники данных, RDD.
  • Практика (Zeppelin, Spark UI): чтение и запись из БД (JDBC), CSV, Parquet, партиционирование, SQL-запросы с агрегацией и соединениями, планы выполнения запросов, мониторинг.

Модуль 6

  • Spark Streaming, Spark Structured Streaming, Flink.
  • Практика: чтение/обработка/запись потоков между Kafka, реляционной БД и файловой системой.

Модуль 7

  • Архитектура, язык запросов.
  • Практика (HBase shell): запись и чтение данных.

Отзывы о курсе

Отзывов пока нет
Будьте первым, напишите отзыв и поставьте оценку этому курсу.

Еще курсы