Дата-сайентист с практическим опытом в анализе данных, владею технологиями машинного обучения, NLP и компьютерного зрения. За последние полгода я и моя команда стали призерами двух хакатонов по машинному обучению и нейросетям.
Работаю с библиотеками: NumPy, Pandas, Shap, Scikit-learn, CatBoost, PyTorch, Torchvision, Transformers, Aiogram, nltk, gensim, statsmodels и SciPy. Визуализирую свои результаты с помощью Matplotlib/Seaborn/Plotly, развертываю проекты силами Streamlit или посредством Telegram-ботов на хостингах. Работал с Git, SQL, Docker, PySpark.
Один из последних проектов — Telegram-бот, который является персональным ассистентом для решения проблем с кожей. Под капотом модели компьютерного зрения (YOLOv5) и NLP (Transformers). Успешно развернул бота на хостинге с помощью Docker.
(2) Хакатон "ML TalentMatch" - разработка модели для подбора и ранжирования резюме соискателей под вакансии.
Tech Stack: Hugging Face’s Transformers, PyTorch, OpenAI, Autogluon, CatBoost, Optuna.
Результат: Призер 3-го места в хакатоне.
Хакатон ВШБ и VK - предсказание выздоровления пациентов с помощью экспериментального лекарства, распознавание изображений для заповедника с помощью CNN, рекомендационная система для рекламных баннеров
Tech Stack: CatBoost, Perceptron, Voting, Stacking, Matplotlib & Seaborn, Optuna, GridSearchCV, Shap, Pytorch, ResNet50, GoogleNet, MobileNet
- Обучение и тюнинг градиентого бустинга, multi-layer perceptron, KNN и их ансамблирование (voting, stacking)
- Feature selection на основе shap values
- Кластеризация данных для повышения качества классификации
- Написание и обучение кастомной полносвязной нейронной сети
- Использование oversampling методов для борьбы с дисбалансом классов
- Fine-tuning, unfreezing и обучение сверточных нейронных сетей для задачи классификации
- Написание рекомендационной системы на основе SVD, user-based и item-based подходов
Результат: Призер 3 места в соревновании.
HSE Sber ML Hack - хакатон по определению пола клиента на основе истории банковских транзакций
Tech Stack: CatBoost, XGBoost, LightGBM, Optuna, Shap, Keras
- Feature generation по транзакционным данных, описательная статистика для профилирования клиентов.
- Эксперименты с различными моделями машинного обучения, их ансамблированием и оптимизация гиперпараметров с использованием Optuna.
- Feature selection на основе значений Шепли; уменьшение числа признаков с 2000+ до 310.
- Анализ и интерпретация паттернов расходов в различных торговых категориях для определения пола.
- Использование собственной полносвязной нейронной сети (FCNN) наряду с методами градиентного бустинга.
Результат: Занял 6 место в таблице лидеров
(1) Выпускной проект "TheCosmoBot" - Telegram-бот, который является персональным ассистентом для решения проблем с кожей. Решает задачи анализа косметических продуктов и обработки отзывов, а также предоставляет
пользователю рекомендации с информацией о препаратах. Задеплоен на
YandexCloud.
Tech stack: BeautifulSoup, Pandas, YOLOv5, HuggingFace, Transformers, Aiogram, Docker, YandexCloud.
- Парсинг данных о лекарствах с использованием библиотеки BeautifulSoup.
- Предобработка и очистка данных.
- Разработка Telegram-бота с использованием библиотеки Aiogram.
- Реализация NLP-элемента проекта, который выполняет суммаризацию отзывов.
- Работа с Docker, деплой бота на хостинг.
(2) House Prices - Advanced Regression Techniques (Kaggle Competion) -
feature engineering, применение ML-моделей для предсказания цен на
недвижмость.
Tech Stack: Ridge, Lasso, XGBoost, CatBoost, Voting, GridSearchCV&Optune, shap
- EDA, заполнение пропусков, работа с выбросами, масштабирование числовых
признаков, энкодинг категориальных признаков, логарифмирование таргета.
- Построение матрицы корелляции, анализ permutation importance с помощью библиотеки shap -> исключение признаков.
- Тюнинг гиперпараметров моделей (Optune, GridSearchCV)
- Обучение и применение Ridge, Lasso, XGBoost, CatBoost, LightGBM, а также Voting (линейная модель+ бустинг) с кросс-валидацией
Результат: Вошел в 5% участников по результатам соревнования.
(3) FindMyMovie - рекомендательная система для усовершенствования поиска фильмов пользователями.
Tech Stack: PyTorch, Streamlit & HuggingFace (BERT), Faiss.
Парсинг данных Работа с BERT Работа с faiss Написание интерфейса приложения на StreamlitНа моем GitHub также есть учебные проекты с использованием Inception, ResNet, AutoEncoder, LSTM, YOLOv5, GPT-2, BERT.