Учебный центр IBS

EAS-032 Apache AirFlow: эффективная оркестрация задач

Для кого: Инженер по даннымМидл Мидл
Начало: По факту набора потока
Длительность: 1 неделя
Улучшаемые навыки:
ETLDockerApache AirflowClickHouseKubernetes
СертификатОнлайн

Описание курса

Курс направлен на развитие компетенций по созданию, выполнению, мониторингу и оркестрации потоков операций по обработке данных с использованием Apache AirFlow.

Модуль 1

  • Что такое ETL
  • Оркестрация вручную - Cron и скрипты
  • Первый оркестратор для Hadoop - Oozie
  • Введение в AirFlow
  • Локальная установка AirFlow
  • Установка в Docker
  • Настройка подключений к внешним сервисам
  • REST API & CLI
  • Практика 1. Установка и получение доступа к AirFlow

Модуль 2

  • Запускаемое задание - граф задач (DAG)
  • Оператор (operator)
  • Процесс исполнения задания
  • Состояния задач (task)
  • Веб-интерфейс
  • Практика 2.

Модуль 3

  • Планирование, ручной запуск и мониторинг выполнения заданий.
  • Планировщик (Scheduler)
  • Исполнитель заданий (Executor)
  • Исполнитель задач (Worker)
  • Веб-сервер
  • База метаданных
  • Конфигурация
  • Практика 3. Настройка исполнителей для заданий.

Модуль 4

  • Виды операторов
  • PythonOperator
  • BashOperator
  • HttpOperator
  • *SQLOperator
  • Практика 4. Описание простых заданий.

Модуль 5

  • Последовательное выполнение
  • Параллельное выполнение
  • Проверка условий
  • Передача данных между операторами: переменные
  • Шаблоны и макросы
  • Практика 5. Описание составных заданий.

Модуль 6

  • Готовые сенсоры.
  • Практика 6. Задание условий срабатывания заданий.

Модуль 7

  • Хуки
  • Триггеры
  • Прослушиватели
  • Backfill & catchup
  • Практика 7. Установка хуков.

Модуль 8

  • Мониторинг и отладка заданий
  • Плагины и нотификации.
  • Сенсоры и branch операторы.
  • Операторы и хуки.
  • Практика 8. Разработка и использование оператора.

Модуль 9

  • Оптимизация заданий
  • Взаимодействие заданий (XCom)
  • Динамические задания
  • Управление параллелизмом и пулингом
  • Тестирование заданий
  • Примеры практических задач и их решений
  • Практика 9. Тестирование и оптимизация заданий.

Модуль 10

  • Обращение к файловой системе HDFS
  • Пошаговое выполнение отдельными сессиями Spark
  • Выполнение в одной сессии через Spark REST API
  • Практика 10. Запуск заданий Spark.

Модуль 11

  • Выполнение запросов Impala
  • Практика 11. Запуск запросов Impala.

Модуль 12

  • Выполнение запросов ClickHouse
  • Практика 12. Запуск заданий ClickHouse.

Модуль 13

  • Интеграция с SuperSet
  • Многоузловой кластер
  • AirFlow в Docker
  • Развертывание в Kubernetes
  • Аутентификация, шифрование, управление доступом
  • Журналы
  • Мониторинг
  • Обновление версий
  • Практика 13. Выполнение заданий на многоузловом кластере.

Отзывы о курсе

Отзывов пока нет
Будьте первым, напишите отзыв и поставьте оценку этому курсу.

Еще курсы