
EAS-032 Apache AirFlow: эффективная оркестрация задач
Начало: По мере набора группы
Длительность: 1 неделя
СертификатОнлайн
Описание курса
Освойте Apache AirFlow для создания и мониторинга сложных ETL-процессов. Улучшите производительность и управление данными в Big Data-проектах.
- Что такое ETL.
- Оркестрация вручную — Cron и скрипты.
- Первый оркестратор для Hadoop — Oozie.
- Введение в AirFlow.
- Локальная установка AirFlow.
- Установка в Docker.
- Настройка подключений к внешним сервисам.
- REST API & CLI.
- Практика 1: Установка и получение доступа к AirFlow.
- Запускаемое задание — граф задач (DAG).
- Оператор (operator).
- Процесс исполнения задания.
- Состояния задач (task).
- Веб-интерфейс.
- Практика 2: Планирование, ручной запуск и мониторинг выполнения заданий.
- Планировщик (Scheduler).
- Исполнитель заданий (Executor).
- Исполнитель задач (Worker).
- Веб-сервер.
- База метаданных.
- Конфигурация.
- Практика 3: Настройка исполнителей для заданий.
- Виды операторов:
- PythonOperator.
- BashOperator.
- HttpOperator.
- SQLOperator.
- Практика 4: Описание простых заданий.
- Последовательное выполнение.
- Параллельное выполнение.
- Проверка условий.
- Передача данных между операторами: переменные.
- Шаблоны и макросы.
- Практика 5: Описание составных заданий.
- Готовые сенсоры.
- Практика 6: Задание условий срабатывания заданий.
- Хуки.
- Триггеры.
- Прослушиватели.
- Backfill & catchup.
- Практика 7: Установка хуков. Мониторинг и отладка заданий.
- Плагины и нотификации.
- Сенсоры и branch операторы.
- Операторы и хуки.
- Практика 8: Разработка и использование оператора.
- Оптимизация заданий.
- Взаимодействие заданий (XCom).
- Динамические задания.
- Управление параллелизмом и пулингом.
- Тестирование заданий.
- Примеры практических задач и их решений.
- Практика 9: Тестирование и оптимизация заданий.
- Обращение к файловой системе HDFS.
- Пошаговое выполнение отдельными сессиями Spark.
- Выполнение в одной сессии через Spark REST API.
- Практика 10: Запуск заданий Spark.
- Выполнение запросов Impala.
- Практика 11: Запуск запросов Impala.
- Выполнение запросов ClickHouse.
- Практика 12: Запуск заданий ClickHouse.
- Интеграция с SuperSet.
- Многоузловой кластер AirFlow в Docker.
- Развертывание в Kubernetes.
- Аутентификация, шифрование, управление доступом.
- Журналы.
- Мониторинг.
- Обновление версий.
- Практика 13: Выполнение заданий на многоузловом кластере.