Акция
Бесплатные вакансии
Только в День HR-менеджера
🤩 Бесплатные вакансии на Хабр Карьере! В честь Дня HR-менеджера сделали размещение вакансий бесплатным. Успейте сегодня до 23:59 → разместить
Учебный центр IBS

EAS-032 Apache AirFlow: эффективная оркестрация задач

Начало: По мере набора группы
Длительность: 1 неделя
СертификатОнлайн

Описание курса

Освойте Apache AirFlow для создания и мониторинга сложных ETL-процессов. Улучшите производительность и управление данными в Big Data-проектах.

  • Что такое ETL.
  • Оркестрация вручную — Cron и скрипты.
  • Первый оркестратор для Hadoop — Oozie.
  • Введение в AirFlow.
  • Локальная установка AirFlow.
  • Установка в Docker.
  • Настройка подключений к внешним сервисам.
  • REST API & CLI.
  • Практика 1: Установка и получение доступа к AirFlow.

  • Запускаемое задание — граф задач (DAG).
  • Оператор (operator).
  • Процесс исполнения задания.
  • Состояния задач (task).
  • Веб-интерфейс.
  • Практика 2: Планирование, ручной запуск и мониторинг выполнения заданий.

  • Планировщик (Scheduler).
  • Исполнитель заданий (Executor).
  • Исполнитель задач (Worker).
  • Веб-сервер.
  • База метаданных.
  • Конфигурация.
  • Практика 3: Настройка исполнителей для заданий.

  • Виды операторов:
    • PythonOperator.
    • BashOperator.
    • HttpOperator.
    • SQLOperator.
  • Практика 4: Описание простых заданий.
  • Последовательное выполнение.
  • Параллельное выполнение.
  • Проверка условий.
  • Передача данных между операторами: переменные.
  • Шаблоны и макросы.
  • Практика 5: Описание составных заданий.

  • Готовые сенсоры.
  • Практика 6: Задание условий срабатывания заданий.
  • Хуки.
  • Триггеры.
  • Прослушиватели.
  • Backfill & catchup.
  • Практика 7: Установка хуков. Мониторинг и отладка заданий.

  • Плагины и нотификации.
  • Сенсоры и branch операторы.
  • Операторы и хуки.
  • Практика 8: Разработка и использование оператора.
  • Оптимизация заданий.
  • Взаимодействие заданий (XCom).
  • Динамические задания.
  • Управление параллелизмом и пулингом.
  • Тестирование заданий.
  • Примеры практических задач и их решений.
  • Практика 9: Тестирование и оптимизация заданий.

  • Обращение к файловой системе HDFS.
  • Пошаговое выполнение отдельными сессиями Spark.
  • Выполнение в одной сессии через Spark REST API.
  • Практика 10: Запуск заданий Spark.
  • Выполнение запросов Impala.
  • Практика 11: Запуск запросов Impala.
  • Выполнение запросов ClickHouse.
  • Практика 12: Запуск заданий ClickHouse.
  • Интеграция с SuperSet.

  • Многоузловой кластер AirFlow в Docker.
  • Развертывание в Kubernetes.
  • Аутентификация, шифрование, управление доступом.
  • Журналы.
  • Мониторинг.
  • Обновление версий.
  • Практика 13: Выполнение заданий на многоузловом кластере.

Отзывы о курсе

Отзывов пока нет
Будьте первым, напишите отзыв и поставьте оценку этому курсу.