Герман Кастерин (nasdorm), 24 года, Россия, СамараГерман Кастерин (nasdorm), 24 года, Россия, Самара

Герман Кастерин

Junior Data Scientist | ML models for pricing, forecasting & analytics.Ученый по даннымML разработчикМладший (Junior)
Ищу работу

Контакты

Войти
Возраст: 24 года
Опыт работы: 9 месяцев
Регистрация: 23.05.2024
Последний визит: 1 день назад
Гражданство: Россия
Местоположение: Россия, Самара
Дополнительно: готов к удаленной работе
Знание языков: Английский В2

Обо мне


Технические навыки:

- Языки программирования: Python (pandas, NumPy, SciPy).

- Машинное обучение: Scikit-learn, XGBoost, LightGBM, Optuna, ALS.

- Анализ временных рядов: TimeSeriesSplit, лаги, скользящие средние, автокорреляция.

- Глубокое обучение: PyTorch.

- Визуализация данных: Matplotlib, Seaborn.

- Управление экспериментами: MLflow, Docker.

- CI/CD: GitLab CI.

Софт-скиллы:

- Коммуникабельность: Эффективное участие в обсуждениях, умение задавать уточняющие вопросы для улучшения командной работы.

- Адаптивность: Быстрая обучаемость и способность находить решения в условиях неопределённости, что позволяет гибко адаптировать модели и устранять ошибки.

- Внимание к деталям: Тщательная проверка кода и аналитических выводов, что обеспечивает высокое качество моделей и интерпретации данных.

---

Проекты

House Price Prediction

- Kaggle-проект по прогнозированию цен на жильё.

- Разработана регрессионная модель на основе XGBoost и Scikit-learn.

- Оптимизация гиперпараметров через RandomizedSearchCV позволила снизить RMSE на 10%.

- Проведён детальный анализ признаков, включая корреляцию, и обработка пропущенных данных.

Store Sales - Time Series Forecasting

- Kaggle-проект по прогнозированию продаж с использованием временных рядов.

- Полноценное end-to-end решение: обработка данных, создание признаков, обучение модели и прогнозирование.

- Реализована инженерия временных признаков: лаги, скользящие средние, сезонность.

- Оптимизация модели XGBoost через Optuna снизила RMSLE на 15%.

- Интеграция MLflow и GitLab CI для автоматизации экспериментов и деплоя.

- Итог: место в топ-450 участников на Kaggle.

MovieLens 100K

- Проект по разработке рекомендательной системы на основе датасета MovieLens-100K.

- Использование гибридной модели на основе алгоритма ALS и LightGBM для генерации рекомендаций и кластеризации пользователей.

- Проведён анализ поведения пользователей и визуализация полученных данных.

- Оптимизация параметров модели привела к увеличению точности предсказаний.

Навыки

Python
NumPy
Pandas
Git
Docker
SQL
PyTorch
CI/CD
ООП
Машинное обучение

Участие в профсообществах

Опыт работы

  • Github
    Ученый по данным (Младший)Data Scientist (Pet Projects, GitHub)
    Май 2024 — По настоящее время (9 месяцев)

    Работа над проектами по машинному обучению и анализу данных на GitHub, с акцентом на задачи регрессии и временных рядов.

    • Проект: House Price Prediction
      Разработка модели для предсказания цен на жилье с использованием XGBoost.
      • Выполнил анализ данных (EDA) для выявления ключевых факторов, влияющих на цену.
      • Оптимизировал модель с помощью GridSearchCV, что снизило RMSE на 10%.
      • Внедрил MLflow для управления экспериментами.
      • Результат: Модель может использоваться для точной оценки стоимости недвижимости риелторами и банками.
    • Проект: Store Sales - Time Series Forecasting
      Прогнозирование продаж розничных магазинов на основе временных рядов.
      • Разработал модель с использованием XGBoost и временных признаков (лаги, скользящие средние).
      • Применил TimeSeriesSplit для корректной валидации временных данных.
      • Оптимизировал модель с помощью Optuna, что снизило RMSLE до 0.75094.
      •  Применил Docker для контейнеризации модели временных рядов, что упростило развёртывание и тестирование.
      • Результат: Модель может использоваться для улучшения управления запасами и планирования продаж в ритейле.

Высшее образование

  • ПГУТИ

    Поволжский государственный университет телекоммуникаций и информатики
    Самара804 выпускника
    Информатика и вычислительная техника
    Сентябрь 2020 — Июль 2023 (2 года и 10 месяцев)