
EAS-027 Машинное обучение с подкреплением: обычное и глубокое
Начало: По мере набора группы
Длительность: 1 неделя
СертификатОнлайн
Описание курса
Освойте методы обучения с подкреплением и их применение в реальных задачах. Этот курс предоставляет всесторонний обзор RL и DRL, включая основы математики, базовые алгоритмы и современные исследования. Вы научитесь моделировать среды RL и применять алгоритмы для решения.
- Линейная алгебра: обзор основных концепций.
- Математический анализ:
- Интегралы.
- Производные.
- Примеры.
- Теория вероятностей:
- Случайные величины.
- Функции плотности вероятности.
- Математическое ожидание.
- Условные, совместные и безусловные вероятности.
- Примеры.
- Практика 1. Введение в RL:
- Марковские процессы принятия решений.
- Динамическое программирование с примером.
- Уравнение Беллмана.
- Оценка стратегии.
- Итерация по стратегиям.
- Итерация по ценностям.
- Примеры.
- Практика 2. На основе модели и без модели:
- Обучение и планирование.
- Детерминированное.
- Стохастическое.
- Аппроксимация линейной функции-значения.
- Сравнение и практика.
- Практика 3. Алгоритмы:
- Q-обучение.
- SARSA.
- Методы Исполнитель-критик.
- Градиент стратегии.
- Методы дерева Монте-Карло.
- Обучение и исполнение.
- Примеры.
- Глубокое обучение с подкреплением:
- Аппроксимация нелинейной функции.
- Прорыв DeepMind.
- Объяснение Alpha-Star.
- Новейшие технологии в глубоком RL:
- Память, внимание, рекурсия.
- Обратное RL.
- Обучение нескольких агентов.
- Иерархическое обучение.
- Развитие поощрений – AutoRL.
- Оптимизации стратегий.
- Применения и использование:
- Трейдинг.
- Понимание речи и вопросно-ответные системы (опционально).
- Балансировка нагрузки (опционально).
- Другие применения (опционально).
- Pytorch / Tensorflow:
- Основы тензорного исчисления.
- Реализация алгоритма RL с нуля.
- Тестирование и визуализация.
- Практика.
- Ray + RLlib:
- Основные понятия: исполнители, модели будущего, совместное использование памяти и т.д.
- Пример с решением.
- Различные алгоритмы.
- Сеточный поиск и визуализация.
- Практика.
- Визуализация и объяснимость:
- SMDP, AMDP, SAMDP.
- Проекция на 3D-пространство с помощью TSNE.
- Примеры.