Учебный центр IBS
EAS-015 Основы Hadoop
Улучшаемые навыки:
СертификатОнлайн
Описание курса
Этот тренинг дает представление об устройстве Apache Hadoop и методах разработки приложений, обрабатывающих данные на его основе. Участники познакомятся с HDFS – стандартом де-факто для долговременного надежного хранения больших объемов данных фреймворком YARN, управляющим параллельным выполнением приложений на кластере и сопутствующими проектами, входящими в экосистему Hadoop: Hive, Spark, HBase.
Модуль 1
- Архитектура, репликация, чтение и запись данных, команды HDFS.
- Практика: подключение к кластеру, работа с файловой системой из shell и Hue.
Модуль 2
- Практика: запуск приложений.
Модуль 3
- Архитектура YARN, запуск приложений в YARN.
- Практика: запуск приложений и наблюдение за кластером через UI.
Модуль 4
- Архитектура, метаданные таблиц, форматы файлов, язык запросов HiveQL.
- Практика (Hue, hive, beeline, Tez UI): создание таблиц, чтение и запись CSV, Parquet, ORC, партиционирование, SQL-запросы с агрегацией и соединениями.
Модуль 5
- DataFrame/SQL, метаданные, форматы файлов, источники данных, RDD.
- Практика (Zeppelin, Spark UI): чтение и запись из БД (JDBC), CSV, Parquet, партиционирование, SQL-запросы с агрегацией и соединениями, планы выполнения запросов, мониторинг.
Модуль 6
- Spark Streaming, Spark Structured Streaming, Flink.
- Практика: чтение/обработка/запись потоков между Kafka, реляционной БД и файловой системой.
Модуль 7
- Архитектура, язык запросов.
- Практика (HBase shell): запись и чтение данных.
Отзывы о курсе
Еще курсы
Бэкенд разработчик269Фулстек разработчик157Веб-разработчик149Фронтенд разработчик144Разработчик игр90Разработчик мобильных приложений65Десктоп разработчик35Архитектор программного обеспечения30Инженер встраиваемых систем25Программист 1С25Разработчик баз данных19HTML-верстальщик9Системный инженер8Архитектор баз данных3
Все курсы в специализации