Учебный центр IBS

EAS-027 Машинное обучение с подкреплением: обычное и глубокое

Для кого: ML разработчикМидл Сеньор
Начало: По факту набора потока
Длительность: 1 неделя
Улучшаемые навыки:
Машинное обучение
СертификатОнлайн

Описание курса

В этом курсе дается общий обзор метода обучения с подкреплением (Reinforcement Learning, RL). Мы начнем с необходимой математики, рассмотрим базовые алгоритмы RL и поговорим о глубоком обучении с подкреплением (Deep RL), а также о новейших методах машинного обучения, используемых в настоящее время. Мы подробно рассмотрим некоторые применения и расскажем о важнейших достижениях в этой области.

Модуль 1

1. Линейная алгебра (30 мин)

  • Обзор основных концепций.

    2. Математический анализ (1 ч)
  • Интегралы.
  • Производные.
  • Примеры.

3. Теория вероятностей (4 ч)

  • Случайные величины.
  • Функции плотности вероятности.
  • Математическое ожидание.
  • Условные, совместные и безусловные вероятности.
  • Примеры.
  • Практика.

Модуль 2

1. Введение в RL (4 ч)

  • Марковские процессы принятия решений.
  • Динамическое программирование с примером.
  • Уравнение Беллмана.
  • Оценка стратегии.
  • Итерация по стратегиям.
  • Итерация по ценностям.
  • Примеры.
  • Практика.

2. На основе модели и без модели (3 ч)

  • Обучение и планирование.
  • Детерминированное.
  • Стохастическое.
  • Аппроксимация линейной функции-значения.
  • Сравнение и практика.

3. Алгоритмы (4 ч)

  • Q-обучение.
  • SARSA.
  • Методы Исполнитель-критик.
  • Градиент стратегии.
  • Методы дерева Монте-Карло.
  • Обучение и исполнение.
  • Примеры.
  • Практика.

Модуль 3

1. Глубокое обучение с подкреплением (1,5 ч)

  • Аппроксимация нелинейной функции.
  • Прорыв DeepMind.
  • Объяснение Alpha-Star.

2. Новейшие технологии в глубоком RL (3 ч)

  • Память, внимание, рекурсия.
  • Обратное RL.
  • Обучение нескольких агентов.
  • Иерархическое обучение.
  • Развитие поощрений – AutoRL.
  • Оптимизации стратегий.

3. Применения и использование (2 ч)

  • Трейдинг.
  • Понимание речи и вопросно-ответные системы (опционально).
  • Балансировка нагрузки (опционально).
  • Другие применения (опционально).

Модуль 4

1. Pytorch / Tensorflow (2 ч)

  • Основы тензорного исчисления.
  • Реализация алгоритма RL с нуля.
  • Тестирование и визуализация.
  • Практика.

2. Ray + RLlib (3 ч 30 мин)

  • Основы тензорного исчисления.
  • Реализация алгоритма RL с нуля.
  • Тестирование и визуализация.
  • Практика.

3. Визуализация и объяснимость (1 ч 30 мин)

  • SMDP, AMDP, SAMDP.
  • Проекция на 3D-пространство с помощью TSNE.
  • Примеры.

Отзывы о курсе

Отзывов пока нет
Будьте первым, напишите отзыв и поставьте оценку этому курсу.

Еще курсы