Практический курс по обработке текстов методами машинного обучения. Участники узнают и разберутся с тем, для каких задач применяется машинное обучение, как правильно ставить задачи, собирать и готовить данные, как работать с признаками, как оценивать качество результата. В курсе рассмотрены различные методы предобработки текстов, векторные представления слов и их использование для классификации и других задач. Участники изучат методы разметки текстов, извлечения именованных сущностей и снижения размерности. Отдельное внимание будет уделено предобученным языковым моделям, таким как BERT и GPT, и их применению для работы с текстовыми данными.
- Задачи машинного обучения.
- Базовые библиотеки для машинного обучения:
- Pandas.
- Scikit-learn.
- Matplotlib.
- Признаки и работа с ними.
- Валидация данных и оценка качества алгоритмов.
- Функции потерь, метрики качества.
- Разделение набора данных.
- Кросс-валидация.
- Практика: Предобработка и визуализация данных, классические модели ML. [Теория — 2 часа, практика + демо — 2 часа, д/з — 1,5 часа]
- Задачи обработки текстов.
- Методы предобработки и выделения признаков в анализе текстов.
- Предобработка текстов:
- “Мешок слов”.
- TF-IDF.
- Регулярные выражения.
- Сегментация.
- Лемматизация.
- Стоп-слова.
- Части речи.
- Простые векторные представления слов:
- One-hot векторы.
- SVD.
- Hashing Trick.
- Библиотеки:
- NLTK.
- gensim.
- SpaCy.
- Yargy.
- Практика: Предобработка текстов. [Теория — 1 час, практика + демо — 3 часа, д/з — 1 час]
- Обучаемые векторные представления слов:
- word2vec (CBOW, SkipGram).
- GloVe.
- fastText.
- Методы обучения и донастройки неглубоких эмбеддингов.
- Использование неглубоких эмбеддингов для классификации.
- Практика: Использование word2vec и fastText. [Теория — 1 час, практика + демо — 3 часа]
- Архитектура и применение сверточных нейронных сетей для задач классификации.
- Разметка последовательностей:
- Скрытые марковские модели.
- Рекуррентные сети.
- Сети:
- Извлечение именованных сущностей.
- Практика: Использование CNN и LSTM. [Теория — 1 час, практика + демо — 3 часа, д/з — 3 часа]
- Извлечение ключевых слов.
- Суммаризация текстов.
- Тематическое моделирование:
- Практика: Использование BigARTM. [Теория — 1 час, практика + демо — 3 часа, д/з — 2 часа]
- Архитектура трансформеров, механизмы внимания.
- Энкодерные архитектуры:
- Декодерные архитектуры:
- XLNet.
- Мультиязычные модели.
- Практика: Использование BERT, RuGPT. [Теория — 1 час, демо — 3 часа, д/з — 1,5 часа]
Дата начала: По мере набора группы
Длительность: 1 неделя
Стоимость курса: 41 900 ₽
Цена без скидки: 41 900 ₽
Рассрочка: Нет
Формат занятий: Онлайн
Помощь с трудоустройством: Нет
Сертификат об окончании: Да