EAS-028 Машинное обучение для анализа естественного языка (NLP)
Описание курса
Практический курс по обработке текстов методами машинного обучения. Участники узнают и разберутся с тем, для каких задач применяется машинное обучение, как правильно ставить задачи, собирать и готовить данные, как работать с признаками, как оценивать качество результата. В курсе рассмотрены различные методы предобработки текстов, векторные представления слов и их использование для классификации и других задач. Участники изучат методы разметки текстов, извлечения именованных сущностей и снижения размерности. Отдельное внимание будет уделено предобученным языковым моделям, таким как BERT и GPT, и их применению для работы с текстовыми данными.
Модуль 1
- Задачи машинного обучения. Базовые библиотеки для машинного обучения (Pandas, Scikit-learn, Matplotlib).
- Признаки и работа с ними. Валидация данных и оценка качества алгоритмов. Функции потерь, метрики качества. Разделение набора данных. Кросс-валидация.
- Практика: Предобработка и визуализация данных, классические модели ML.
Модуль 2
- Задачи обработки текстов. Методы предобработки и выделения признаков в анализе текстов.
- Предобработка текстов: “мешок слов”, TF-IDF, регулярные выражения, сегментация, лемматизация, стоп-слова, части речи. Простые векторные представления слов: Оne-hot векторы, SVD, Hashing Trick.
- Библиотеки NLTK, gensim, SpaCy, Yargy.
- Практика: Предобработка текстов.
Модуль 3
- Обучаемые векторные представления слов: word2vec (CBOW, skipGram), GloVe, fastText. Методы обучения и донастройки неглубоких эмбеддингов. Использование неглубоких эмбеддингов для классификации.
- Практика: Использование word2vec и fastText.
Модуль 4
- Архитектура и применение сверточных нейронных сетей для задач классификации.
- Разметка последовательностей: скрытые марковские модели, рекуррентные сети. Сети RNN, LSTM, GRU.
- Извлечение именованных сущностей.
- Практика: Использование CNN и LSTM.
Модуль 5
- Извлечение ключевых слов. Суммаризация текстов. Тематическое моделирование: PLSA, LDA, ARTM.
- Практика: Использование BigARTM.
Модуль 6
- Архитектура трансформеров, механизмы внимания. Энкодерные архитектуры ELMo, BERT, RuBERT.
- Декодерные архитектуры GPT2, GPT3, RuGPT. XLNet. Мультиязычные модели.
- Практика: Использование BERT, RuGPT.