
EAS-015 Основы Hadoop
Начало: По мере набора группы
Длительность: 1 неделя
СертификатОнлайн
Описание курса
Освойте основы Hadoop и экосистемы Big Data. Этот тренинг дает представление об устройстве Apache Hadoop и методах разработки приложений, обрабатывающих данные на его основе. Участники познакомятся с HDFS – стандартом де-факто для долговременного надежного хранения больших объемов данных, фреймворком YARN, управляющим параллельным выполнением приложений на кластере, и сопутствующими проектами, составляющими экосистему Hadoop: Hive, Spark, HBase.
- Архитектура, репликация, чтение и запись данных, команды HDFS.
- Практика: подключение к кластеру, работа с файловой системой из shell и Hue.
- Практика: запуск приложений.
- Архитектура YARN, запуск приложений в YARN.
- Практика: запуск приложений и наблюдение за кластером через UI.
- Архитектура, метаданные таблиц, форматы файлов, язык запросов HiveQL.
- Практика (Hue, hive, beeline, Tez UI): создание таблиц, чтение и запись CSV, Parquet, ORC, партиционирование, SQL-запросы с агрегацией и соединениями.
- DataFrame/SQL, метаданные, форматы файлов, источники данных, RDD.
- Практика (Zeppelin, Spark UI): чтение и запись из БД (JDBC), CSV, Parquet, партиционирование, SQL-запросы с агрегацией и соединениями, планы выполнения запросов, мониторинг.
- Spark Streaming, Spark Structured Streaming, Flink.
- Практика: чтение/обработка/запись потоков между Kafka, реляционной БД и файловой системой.
- Архитектура, язык запросов.
- Практика (HBase shell): запись и чтение данных.