Учебный центр IBS

EAS-027 Машинное обучение с подкреплением: обычное и глубокое

Начало: По мере набора группы

Длительность: 1 неделя

СертификатОнлайн

Описание курса

Освойте методы обучения с подкреплением и их применение в реальных задачах. Этот курс предоставляет всесторонний обзор RL и DRL, включая основы математики, базовые алгоритмы и современные исследования. Вы научитесь моделировать среды RL и применять алгоритмы для решения.

Линейная алгебра: обзор основных концепций.
Математический анализ:
- Интегралы.
- Производные.
- Примеры.
Теория вероятностей:
- Случайные величины.
- Функции плотности вероятности.
- Математическое ожидание.
- Условные, совместные и безусловные вероятности.
- Примеры.

Практика 1. Введение в RL:
- Марковские процессы принятия решений.
- Динамическое программирование с примером.
- Уравнение Беллмана.
- Оценка стратегии.
- Итерация по стратегиям.
- Итерация по ценностям.
- Примеры.
Практика 2. На основе модели и без модели:
- Обучение и планирование.
- Детерминированное.
- Стохастическое.
- Аппроксимация линейной функции-значения.
- Сравнение и практика.
Практика 3. Алгоритмы:
- Q-обучение.
- SARSA.
- Методы Исполнитель-критик.
- Градиент стратегии.
- Методы дерева Монте-Карло.
- Обучение и исполнение.
- Примеры.

Глубокое обучение с подкреплением:
- Аппроксимация нелинейной функции.
- Прорыв DeepMind.
- Объяснение Alpha-Star.
Новейшие технологии в глубоком RL:
- Память, внимание, рекурсия.
- Обратное RL.
- Обучение нескольких агентов.
- Иерархическое обучение.
- Развитие поощрений – AutoRL.
- Оптимизации стратегий.
Применения и использование:
- Трейдинг.
- Понимание речи и вопросно-ответные системы (опционально).
- Балансировка нагрузки (опционально).
- Другие применения (опционально).

Pytorch / Tensorflow:
- Основы тензорного исчисления.
- Реализация алгоритма RL с нуля.
- Тестирование и визуализация.
- Практика.
Ray + RLlib:
- Основные понятия: исполнители, модели будущего, совместное использование памяти и т.д.
- Пример с решением.
- Различные алгоритмы.
- Сеточный поиск и визуализация.
- Практика.
Визуализация и объяснимость:
- SMDP, AMDP, SAMDP.
- Проекция на 3D-пространство с помощью TSNE.
- Примеры.

Отзывы о курсе

Отзывов пока нет

Будьте первым, напишите отзыв и поставьте оценку этому курсу.

Оценить курс