Учебный центр IBSEAS-027 Машинное обучение с подкреплением: обычное и глубокое
Начало: По мере набора группы
Длительность: 1 неделя
СертификатОнлайн
Описание курса
Освойте методы обучения с подкреплением и их применение в реальных задачах. Этот курс предоставляет всесторонний обзор RL и DRL, включая основы математики, базовые алгоритмы и современные исследования. Вы научитесь моделировать среды RL и применять алгоритмы для решения.
- Линейная алгебра: обзор основных концепций.
 - Математический анализ:
    
- Интегралы.
 - Производные.
 - Примеры.
 
 - Теория вероятностей:
    
- Случайные величины.
 - Функции плотности вероятности.
 - Математическое ожидание.
 - Условные, совместные и безусловные вероятности.
 - Примеры.
 
 
- Практика 1. Введение в RL:
    
- Марковские процессы принятия решений.
 - Динамическое программирование с примером.
 - Уравнение Беллмана.
 - Оценка стратегии.
 - Итерация по стратегиям.
 - Итерация по ценностям.
 - Примеры.
 
 - Практика 2. На основе модели и без модели:
    
- Обучение и планирование.
 - Детерминированное.
 - Стохастическое.
 - Аппроксимация линейной функции-значения.
 - Сравнение и практика.
 
 - Практика 3. Алгоритмы:
    
- Q-обучение.
 - SARSA.
 - Методы Исполнитель-критик.
 - Градиент стратегии.
 - Методы дерева Монте-Карло.
 - Обучение и исполнение.
 - Примеры.
 
 
- Глубокое обучение с подкреплением:
    
- Аппроксимация нелинейной функции.
 - Прорыв DeepMind.
 - Объяснение Alpha-Star.
 
 - Новейшие технологии в глубоком RL:
    
- Память, внимание, рекурсия.
 - Обратное RL.
 - Обучение нескольких агентов.
 - Иерархическое обучение.
 - Развитие поощрений – AutoRL.
 - Оптимизации стратегий.
 
 - Применения и использование:
    
- Трейдинг.
 - Понимание речи и вопросно-ответные системы (опционально).
 - Балансировка нагрузки (опционально).
 - Другие применения (опционально).
 
 
- Pytorch / Tensorflow:
    
- Основы тензорного исчисления.
 - Реализация алгоритма RL с нуля.
 - Тестирование и визуализация.
 - Практика.
 
 - Ray + RLlib:
    
- Основные понятия: исполнители, модели будущего, совместное использование памяти и т.д.
 - Пример с решением.
 - Различные алгоритмы.
 - Сеточный поиск и визуализация.
 - Практика.
 
 - Визуализация и объяснимость:
    
- SMDP, AMDP, SAMDP.
 - Проекция на 3D-пространство с помощью TSNE.
 - Примеры.