🤠 Бэкендеры, найдите себе команду по вайбам! Проверить мэтч → в вайб-квизе
Соломон Чакаев (veidlink), Россия, МоскваСоломон Чакаев (veidlink), Россия, Москва

Соломон Чакаев

Ученый по даннымML разработчик
От 120 000 ₽Ищу работу

Контакты

Войти
Опыт работы: 7 месяцев
Регистрация: 29.09.2023
Последний визит: 7 месяцев назад
Гражданство:
Местоположение: Россия, Москва
Дополнительно: готов к удаленной работе
Знание языков:

Обо мне

Дата-сайентист с практическим опытом в анализе данных, владею технологиями машинного обучения, NLP и компьютерного зрения. За последние полгода я и моя команда стали призерами двух хакатонов по машинному обучению и нейросетям.

Работаю с библиотеками: NumPy, Pandas, Shap, Scikit-learn, CatBoost, PyTorch, Torchvision, Transformers, Aiogram, nltk, gensim, statsmodels и SciPy. Визуализирую свои результаты с помощью Matplotlib/Seaborn/Plotly, развертываю проекты силами Streamlit или посредством Telegram-ботов на хостингах. Работал с Git, SQL, Docker, PySpark.

Один из последних проектов — Telegram-бот, который является персональным ассистентом для решения проблем с кожей. Под капотом модели компьютерного зрения (YOLOv5) и NLP (Transformers). Успешно развернул бота на хостинге с помощью Docker.

Навыки

Python
Машинное обучение
Нейронные сети
PyTorch
NumPy
Deep Learning
Обработка естественного языка
Компьютерное зрение
SQL

Опыт работы

  • IТ-аутсорсинг, HR Tech, заказная разработка, IТ-рекрутмент.
    От 100 до 1000 сотрудников
    Ученый по даннымData Scientist
    Февраль 2024 — Февраль 2024 (1 месяц)

    (2) Хакатон "ML TalentMatch" - разработка модели для подбора и ранжирования резюме соискателей под вакансии.

    Tech Stack: Hugging Face’s Transformers, PyTorch, OpenAI, Autogluon, CatBoost, Optuna.

    • Написал код и дообучил модель Sentence Transformer на базе rubert-tiny2 для семантического сопоставления эмбеддингов резюме и вакансий.
    • Предобработал, очистил и аугментировал данные, в результате обогатил обучающую выборку и повысил F1-score с 0,43 до 0,69.
    • Подобрал на optuna оптимальный порог для cosine similarity для классификации, максимизируя F1-score в бинарных предсказаниях.
    • Fine-tuning на эмбэддингах от OpenAI, сгенерированных моделью text-embedding-3-small, чем получил финальные метрики: precision = 0.71, recall = 0.67, F1-score = 0.69.

    Результат: Призер 3-го места в хакатоне.

  • Место встречи лучших
    Более 5000 сотрудников
    Ученый по даннымData Scientist
    Декабрь 2023 — Декабрь 2023 (1 месяц)

    Хакатон ВШБ и VK - предсказание выздоровления пациентов с помощью экспериментального лекарства, распознавание изображений для заповедника с помощью CNN, рекомендационная система для рекламных баннеров

    Tech Stack: CatBoost, Perceptron, Voting, Stacking, Matplotlib & Seaborn, Optuna, GridSearchCV, Shap, Pytorch, ResNet50, GoogleNet, MobileNet

    - Обучение и тюнинг градиентого бустинга, multi-layer perceptron, KNN и их ансамблирование (voting, stacking)
    - Feature selection на основе shap values
    - Кластеризация данных для повышения качества классификации
    - Написание и обучение кастомной полносвязной нейронной сети
    - Использование oversampling методов для борьбы с дисбалансом классов
    - Fine-tuning, unfreezing и обучение сверточных нейронных сетей для задачи классификации
    - Написание рекомендационной системы на основе SVD, user-based и item-based подходов

    Результат: Призер 3 места в соревновании.

  • Крупнейшая цифровая платформа. Технобренд, объединяющий лучшие мировые практики и самый современный стек
    Более 5000 сотрудников
    Ученый по даннымData Scientist
    Ноябрь 2023 — Ноябрь 2023 (1 месяц)

    HSE Sber ML Hack - хакатон по определению пола клиента на основе истории банковских транзакций

    Tech Stack: CatBoost, XGBoost, LightGBM, Optuna, Shap, Keras

    - Feature generation по транзакционным данных, описательная статистика для профилирования клиентов.
    - Эксперименты с различными моделями машинного обучения, их ансамблированием и оптимизация гиперпараметров с использованием Optuna.
    - Feature selection на основе значений Шепли; уменьшение числа признаков с 2000+ до 310.
    - Анализ и интерпретация паттернов расходов в различных торговых категориях для определения пола.
    - Использование собственной полносвязной нейронной сети (FCNN) наряду с методами градиентного бустинга.

    Результат: Занял 6 место в таблице лидеров

  • Первая в России школа программирования в формате буткемп
    От 10 до 100 сотрудников
    Ученый по даннымData Scientist
    Июнь 2023 — Сентябрь 2023 (4 месяца)

    (1) Выпускной проект "TheCosmoBot" - Telegram-бот, который является персональным  ассистентом для решения проблем с кожей. Решает задачи анализа  косметических продуктов и обработки отзывов, а также предоставляет
    пользователю рекомендации с информацией о препаратах. Задеплоен на
    YandexCloud.

    Tech stack:
    BeautifulSoup, Pandas, YOLOv5, HuggingFace, Transformers, Aiogram, Docker, YandexCloud.

    - Парсинг данных о лекарствах с использованием библиотеки BeautifulSoup.
    - Предобработка и очистка данных.
    - Разработка Telegram-бота с использованием библиотеки Aiogram.
    - Реализация NLP-элемента проекта, который выполняет суммаризацию отзывов.
    - Работа с Docker, деплой бота на хостинг.

    (2) House Prices - Advanced Regression Techniques (Kaggle Competion)
    -
    feature engineering, применение ML-моделей для предсказания цен на
    недвижмость.

    Tech Stack:
    Ridge, Lasso, XGBoost, CatBoost, Voting, GridSearchCV&Optune, shap

    - EDA, заполнение пропусков, работа с выбросами, масштабирование числовых
    признаков, энкодинг категориальных признаков, логарифмирование таргета.
    - Построение матрицы корелляции, анализ permutation importance с помощью библиотеки shap -> исключение признаков.
    - Тюнинг гиперпараметров моделей (Optune, GridSearchCV)
    - Обучение и применение Ridge, Lasso, XGBoost, CatBoost, LightGBM, а также Voting (линейная модель+ бустинг) с кросс-валидацией

    Результат:
    Вошел в 5% участников по результатам соревнования.

    (3) FindMyMovie - рекомендательная система для усовершенствования поиска фильмов пользователями.

    Tech Stack: PyTorch, Streamlit & HuggingFace (BERT), Faiss.

    Парсинг данных Работа с BERT Работа с faiss Написание интерфейса приложения на Streamlit

      На моем GitHub также есть учебные проекты с использованием Inception, ResNet, AutoEncoder, LSTM, YOLOv5, GPT-2, BERT.

    Высшее образование

    • ВШЭ (НИУ)

      Национальный исследовательский университет «Высшая школа экономики»
      Факультет социальных наук
      Октябрь 2022 — По настоящее время (2 года и 1 месяц)

    Дополнительное образование

    • Elbrus Coding Bootcamp

      Комфортная и функциональная среда для обучения программированию
      Data Science
      Сентябрь 2021 — Февраль 2022 (5 месяцев)