Data Scientist

Местоположение и тип занятости

Санкт-ПетербургПолный рабочий день

Компания

Международная компания, специализирующаяся на консалтинге, технологических услугах и аутсорсинге

Описание вакансии

О компании и команде

Bell Integrator – один из ведущих системных интеграторов страны. 

Мы аккредитованная ИТ-компания и являемся частью большой семьи ГК Softline.

Bell Integrator активно реализует проекты по всей России, среди наших заказчиков – крупнейшие системообразующие финансовые, телеком и ритейл компании страны.

Проект:  Автоматизированная система присвоения клиентам банка классификационного кода по отраслевому признаку.
В рамках нового приоритетного направления будем разрабатывать систему определения принадлежности клиентов к той или иной отрасли. В процессе реализации нам потребуется разработать высоконагруженную систему с трёхуровневой архитектурой (front-middle-back), а также внутренним аналитическим хранилищем, обладающую гибкой системой администрирования и расчётов.
Стандартный̆ проект включает в себя все этапы: от аналитики, проверки гипотез до написания промышленного кода и внедрения в пром. 

Инфраструктура: 

С данными мы работаем на PySpark на вычислительном Hadoop-кластере, модели учим на ML библиотеках Python, для контроля версий используем BitBucket, а для ведения задач - Jira.

Ожидания от кандидата

  • Опыт аналогичной работы от 2х лет
  • Наличие реализованных и внедренных решений (наличие репозитория с проектами)
  • Умение интерпретировать и обосновывать результаты работы моделей в доступном для бизнеса формате
  • Опыт постановки и проведения ad-hoc исследований, оценка их качества
  • Понимание основных алгоритмов ML (линейные, ядерные модели, наивный байес, деревья, случайный лес, градиентный бустинг), метрик качества и функций потерь. Умение обосновать выбор модели/метрики/функции потерь для конкретной задачи
  • Опыт предобработки сырых данных (заполнение пропусков, обработка выбросов и т.п.)
  • Умение отобрать важные признаки и сгенерировать новые из текущего набора.
  • Хорошие навыки программирования:
    Python (обязательно: pandas, numpy, scikit-learn, matplotlib/plotly/аналог, xgboost + lightgbm/catboost; желательно: shap, hyperopt/optuna/аналог, keras/tensorflow/pytorch).
    SQL (сложные запросы, индексы, оконные функции).
    Желателен опыт работы с Hadoop: общее понимание архитектуры, Hive (HiveQL), Spark (PySpark/Scala).
  • Опыт работы с linux терминалом
  • Знакомство с методологией Agile и основными фреймворками
  • Опыт работы в Git (используем BitBucket), Jira, Confluence приветствуется.

Обязанности:

  • Общение с бизнес-аналитиком со стороны заказчика
  • Разработка кода для формирования витрин данных
  • Отработка гипотез и поиск оптимальной модели
  • Построение интерпретируемых моделей
  • Внедрение модели в промышленную среду
  • Улучшение действующих моделей

Условия работы

  • Возможность профессионального и карьерного роста в компании, возможность поучаствовать в разных проектах
  • Опыт работы в распределенной команде профессионалов
  • Уровень заработной платы обсуждается индивидуально
  • Формат работы: Гибрид (Санкт-Петербург, пр.Старо-Петергофский 30к1)