⚡️ Соберите стартап, взорвите рынок и заберите AirPods, iPad или даже MacBook — всё это в нашей безумной игре ко Дню программиста

startup-crunch

Учебный центр IBS

EAS-027 Машинное обучение с подкреплением: обычное и глубокое

Начало: По мере набора группы
Длительность: 1 неделя
СертификатОнлайн

Описание курса

Освойте методы обучения с подкреплением и их применение в реальных задачах. Этот курс предоставляет всесторонний обзор RL и DRL, включая основы математики, базовые алгоритмы и современные исследования. Вы научитесь моделировать среды RL и применять алгоритмы для решения.

  • Линейная алгебра: обзор основных концепций.
  • Математический анализ:
    • Интегралы.
    • Производные.
    • Примеры.
  • Теория вероятностей:
    • Случайные величины.
    • Функции плотности вероятности.
    • Математическое ожидание.
    • Условные, совместные и безусловные вероятности.
    • Примеры.

  • Практика 1. Введение в RL:
    • Марковские процессы принятия решений.
    • Динамическое программирование с примером.
    • Уравнение Беллмана.
    • Оценка стратегии.
    • Итерация по стратегиям.
    • Итерация по ценностям.
    • Примеры.
  • Практика 2. На основе модели и без модели:
    • Обучение и планирование.
    • Детерминированное.
    • Стохастическое.
    • Аппроксимация линейной функции-значения.
    • Сравнение и практика.
  • Практика 3. Алгоритмы:
    • Q-обучение.
    • SARSA.
    • Методы Исполнитель-критик.
    • Градиент стратегии.
    • Методы дерева Монте-Карло.
    • Обучение и исполнение.
    • Примеры.

  • Глубокое обучение с подкреплением:
    • Аппроксимация нелинейной функции.
    • Прорыв DeepMind.
    • Объяснение Alpha-Star.
  • Новейшие технологии в глубоком RL:
    • Память, внимание, рекурсия.
    • Обратное RL.
    • Обучение нескольких агентов.
    • Иерархическое обучение.
    • Развитие поощрений – AutoRL.
    • Оптимизации стратегий.
  • Применения и использование:
    • Трейдинг.
    • Понимание речи и вопросно-ответные системы (опционально).
    • Балансировка нагрузки (опционально).
    • Другие применения (опционально).

  • Pytorch / Tensorflow:
    • Основы тензорного исчисления.
    • Реализация алгоритма RL с нуля.
    • Тестирование и визуализация.
    • Практика.
  • Ray + RLlib:
    • Основные понятия: исполнители, модели будущего, совместное использование памяти и т.д.
    • Пример с решением.
    • Различные алгоритмы.
    • Сеточный поиск и визуализация.
    • Практика.
  • Визуализация и объяснимость:
    • SMDP, AMDP, SAMDP.
    • Проекция на 3D-пространство с помощью TSNE.
    • Примеры.

Отзывы о курсе

Отзывов пока нет
Будьте первым, напишите отзыв и поставьте оценку этому курсу.