Учебный центр IBS
EAS-032 Apache AirFlow: эффективная оркестрация задач
СертификатОнлайн
Описание курса
Курс направлен на развитие компетенций по созданию, выполнению, мониторингу и оркестрации потоков операций по обработке данных с использованием Apache AirFlow.
Модуль 1
- Что такое ETL
- Оркестрация вручную - Cron и скрипты
- Первый оркестратор для Hadoop - Oozie
- Введение в AirFlow
- Локальная установка AirFlow
- Установка в Docker
- Настройка подключений к внешним сервисам
- REST API & CLI
- Практика 1. Установка и получение доступа к AirFlow
Модуль 2
- Запускаемое задание - граф задач (DAG)
- Оператор (operator)
- Процесс исполнения задания
- Состояния задач (task)
- Веб-интерфейс
- Практика 2.
Модуль 3
- Планирование, ручной запуск и мониторинг выполнения заданий.
- Планировщик (Scheduler)
- Исполнитель заданий (Executor)
- Исполнитель задач (Worker)
- Веб-сервер
- База метаданных
- Конфигурация
- Практика 3. Настройка исполнителей для заданий.
Модуль 4
- Виды операторов
- PythonOperator
- BashOperator
- HttpOperator
- *SQLOperator
- Практика 4. Описание простых заданий.
Модуль 5
- Последовательное выполнение
- Параллельное выполнение
- Проверка условий
- Передача данных между операторами: переменные
- Шаблоны и макросы
- Практика 5. Описание составных заданий.
Модуль 6
- Готовые сенсоры.
- Практика 6. Задание условий срабатывания заданий.
Модуль 7
- Хуки
- Триггеры
- Прослушиватели
- Backfill & catchup
- Практика 7. Установка хуков.
Модуль 8
- Мониторинг и отладка заданий
- Плагины и нотификации.
- Сенсоры и branch операторы.
- Операторы и хуки.
- Практика 8. Разработка и использование оператора.
Модуль 9
- Оптимизация заданий
- Взаимодействие заданий (XCom)
- Динамические задания
- Управление параллелизмом и пулингом
- Тестирование заданий
- Примеры практических задач и их решений
- Практика 9. Тестирование и оптимизация заданий.
Модуль 10
- Обращение к файловой системе HDFS
- Пошаговое выполнение отдельными сессиями Spark
- Выполнение в одной сессии через Spark REST API
- Практика 10. Запуск заданий Spark.
Модуль 11
- Выполнение запросов Impala
- Практика 11. Запуск запросов Impala.
Модуль 12
- Выполнение запросов ClickHouse
- Практика 12. Запуск заданий ClickHouse.
Модуль 13
- Интеграция с SuperSet
- Многоузловой кластер
- AirFlow в Docker
- Развертывание в Kubernetes
- Аутентификация, шифрование, управление доступом
- Журналы
- Мониторинг
- Обновление версий
- Практика 13. Выполнение заданий на многоузловом кластере.
Отзывы о курсе
Еще курсы
Бэкенд разработчик269Фулстек разработчик157Веб-разработчик149Фронтенд разработчик144Разработчик игр90Разработчик мобильных приложений65Десктоп разработчик35Архитектор программного обеспечения30Инженер встраиваемых систем25Программист 1С25Разработчик баз данных19HTML-верстальщик9Системный инженер8Архитектор баз данных3
Все курсы в специализации