Я начинающий Data Scientist. В профессии меня привлекает возможность с помощью математики увидеть то, чего не видно невооруженным глазом.
Вижу своё будущее как ML инженера. Учусь особенностям профессии каждый день и получаю от этого удовольствие.
Должностные обязанности: Предобработка данных, качество данных, работа с API, создание мониторов качества данных.
Сбор, подготовка, очистка и визуализация данных, разведывательный анализ данных (применение статистических методов; создание, кодирование, преобразование и отбор признаков; проведение статистических тестов), работа над моделью машинного обучения (валидация данных и оценка моделей, отбор и селекция признаков, оптимизация гиперпараметров)
Работа над проектами:
- «Сервис прогнозирования работ по содержанию и ремонту объектов городского хозяйства» (Хакатон ЛЦТ-2023)
Результат: предобработка данных, разведывательный анализ. Команда по итогам хакатона заняла 4 место.
Стек: Pandas, NumPy, Matplotlib, scikit-learn.
- «Удаление фона с изображения автомобиля» (Kaggle competition)
Результат: с помощью U-Net определил маску автомобиля.
Стек: Pandas, NumPy, Matplotlib, TensorFlow, U-net.
- «Обнаружение номерного знака автомобиля» (Kaggle dataset)
Результат: используя YOLO произвёл детекцию автономеров.
Стек: Pandas, NumPy, Matplotlib, YOLOv5.
- «Влияние генетических мутаций» (Kaggle competition)
Результат: применив к задаче модель XGBoost, получил итоговый score 3,15 (Top1 - 2,03)
Стек: Pandas, NumPy, scikit-learn, NLTK.
- «Прогнозирование времени поездки на такси» (Kaggle competition)
Результат: использовал линейные модели, случайный лес и ансамблевые методы. Итоговая метрика RSMLE на валидационных данных: 0,39.
Стек: Pandas, NumPy, Matplotlib, Seaborn, scikit-learn, NLTK.
- «Сегментирование клиентов онлайн-магазина»
- «Прогнозирование рейтинга отеля на Booking»
- «Прогнозирование оттока клиентов банка»
- «Анализ вакансий из HeadHunter»
- «Рекомендательная система статей из CI&T» (Kaggle datasets)
- «Исследование временного ряда ВВП Ганы»
Должностные обязанности: Предобработка данных, написание SQL запросов. разведывательный анализ, построение предиктивных моделей и оптимизация задач.
Стек: Pandas, NumPy, Matplotlib, Seaborn, scikit-learn, PostgreSQL.
Анализ данных на основе расчётов, визуализация модели здания, построение графиков расчётов, проектирование строительных конструкций и расчёт элементов каркаса.