Учебный центр IBS

EAS-028 Машинное обучение для анализа естественного языка (NLP)

Для кого: ML разработчикМидл Мидл
Начало: По факту набора потока
Длительность: 1 неделя
СертификатОнлайн

Описание курса

Практический курс по обработке текстов методами машинного обучения. Участники узнают и разберутся с тем, для каких задач применяется машинное обучение, как правильно ставить задачи, собирать и готовить данные, как работать с признаками, как оценивать качество результата. В курсе рассмотрены различные методы предобработки текстов, векторные представления слов и их использование для классификации и других задач. Участники изучат методы разметки текстов, извлечения именованных сущностей и снижения размерности. Отдельное внимание будет уделено предобученным языковым моделям, таким как BERT и GPT, и их применению для работы с текстовыми данными.

Модуль 1

  • Задачи машинного обучения. Базовые библиотеки для машинного обучения (Pandas, Scikit-learn, Matplotlib).
  • Признаки и работа с ними. Валидация данных и оценка качества алгоритмов. Функции потерь, метрики качества. Разделение набора данных. Кросс-валидация.
  • Практика: Предобработка и визуализация данных, классические модели ML.

Модуль 2

  • Задачи обработки текстов. Методы предобработки и выделения признаков в анализе текстов.
  • Предобработка текстов: “мешок слов”, TF-IDF, регулярные выражения, сегментация, лемматизация, стоп-слова, части речи. Простые векторные представления слов: Оne-hot векторы, SVD, Hashing Trick. 
  • Библиотеки NLTK, gensim, SpaCy, Yargy.
  • Практика: Предобработка текстов.

Модуль 3

  • Обучаемые векторные представления слов: word2vec (CBOW, skipGram), GloVe, fastText. Методы обучения и донастройки неглубоких эмбеддингов. Использование неглубоких эмбеддингов для классификации.
  • Практика: Использование word2vec и fastText.

Модуль 4

  • Архитектура и применение сверточных нейронных сетей для задач классификации.
  • Разметка последовательностей: скрытые марковские модели, рекуррентные сети. Сети RNN, LSTM, GRU.
  • Извлечение именованных сущностей. 
  • Практика: Использование CNN и LSTM.

Модуль 5

  • Извлечение ключевых слов. Суммаризация текстов. Тематическое моделирование: PLSA, LDA, ARTM.
  • Практика: Использование BigARTM.

Модуль 6

  • Архитектура трансформеров, механизмы внимания. Энкодерные архитектуры ELMo, BERT, RuBERT.
  • Декодерные архитектуры GPT2, GPT3, RuGPT. XLNet. Мультиязычные модели.
  • Практика: Использование BERT, RuGPT.

Отзывы о курсе

Отзывов пока нет
Будьте первым, напишите отзыв и поставьте оценку этому курсу.

Еще курсы