Промышленный ML на больших данных

Где проходит обучение

Онлайн обучение

Начало учёбы и длительность

15 апреля 2021 · 5 месяцев

Стоимость

55 000 рублей

Описание курса

Вы освоите все необходимые навыки машинного обучения для потоковых данных и распределенной среды. В программу включены необходимые знания из областей Data Science и Data Engineering, которые позволят вам обрабатывать большие данные и писать распределенные алгоритмы на Spark.

Каждый модуль вы будете закреплять на практике, выполняя домашнее задание. В конце обучения вас ждет финальный проект, который позволит обобщить все полученные знания и пополнить портфолио. Он может быть выполнен в рамках рабочих задач на вашем датасете или быть учебным проектом, основанным на данных, предоставляемых OTUS.

Для кого этот курс?

  • Для специалистов по Машинному обучению или Software инженеров, которые хотят научиться работать с большими данными. Обычно такие задачи имеются в крупных IT-компаниях с масштабным цифровым продуктом.
  • Для Data Scientist, которые хотят усилить свой скиллсет инженерными навыками. Благодаря курсу вы будете уметь обрабатывать данные и самостоятельно выводить результаты ML-решений в продакшн.

Для обучения вам понадобятся базовые навыки работы с данными. Предлагаем посмотреть Карту курсов направления Data Science в OTUS, чтобы сориентироваться в необходимом уровне подготовки.

Вы научитесь:

  • Использовать стандартные инструменты ML-конвейеров в распределенной среде;
  • Разрабатывать собственные блоки для ML-конвейеров;
  • Адаптировать ML-алгоритмы к распределенной среде и инструментам big data;
  • Использовать Spark, SparkML, Spark Streaming;
  • Разрабатывать алгоритмы потоковой подготовки данных для машинного обучения;
  • Обеспечивать контроль качества на всех этапах движения ML-решений в промышленную эксплуатацию.

Необходимые знания

Базовые навыки программирования:

  • управляющие конструкции, циклы, рекурсия;
  • основные структуры данных: массивы, списки, словари, деревья;
  • базовые принципы ООП;
  • знакомство с одним из языков: Python, Java, Scala, C++.

Математика:

  • линейная алгебра: вектора, матрицы и их произведения;
  • матан: производная простых и композитных функций;
  • вычметоды: градиентный спуск, Ньютоновские итерации;
  • теория вероятности: случайные события и величины, математическое ожидание, дисперсия.

Технологии:

  • понимание основ работы вычислительной техники в рамках архитектуры фон Неймана (процессор, память, кэш, подключаемое хранилище);
  • понимание общих принципов реляционных СУБД, знание SQL.

Будет плюсом: знакомство с классическими алгоритмами машинного обучения.

Выпускной проект

Выпускной проект — возможность закрепить навыки, наработанные в процессе обучения. Вам на выбор будет предоставлено 2 варианта:

  • взять свою задачу и свои данные;
  • разработать и развернуть на Spark рекомендательную систему.