Data engineer (ML)

Местоположение и тип занятости

Москва, Санкт-Петербург, НовосибирскПолный рабочий день

Компания

Международная компания, специализирующаяся на консалтинге, технологических услугах и аутсорсинге

Описание вакансии

Условия работы

О проекте:

Наша agile-команда создает информационную платформу .

Платформа предоставляет корпоративным и розничным клиентам широкий спектр продуктов и услуг на локальных и зарубежных финансовых рынках. Ключевые направления бизнеса – Fx trading, Commodities, Equity, Founding, Fixed Income, Rates, Credit Valuation Adjustment, Structured Products, Investment Banking.

Этот бизнес потребляет и порождает огромное количество данных, которые должны обрабатываться c целью:

  • поддержки регулярных бизнес-операций
  • проведения Ad hoc анализа
  • подготовки регулярной аналитической / управленческой отчетности
  • разработки моделей машинного обучения, направленных на решение широкого спектра прикладных задач прогнозирования, классификации, кластеризации, выявления поведенческих паттернов и отклонений от них, сентимент-анализ и т.д.

Разрабатываемая нами информационная платформа – высоконагруженное решение, призванное обеспечить достижение всех этих целей.

Текущий инструментальный стек платформы:

Python, Java, Informatica PowerCenter, Kafka, AirFlow, InfluxDB, kdb+, OneTick, MS SQL, PostgreSQL, MongoDB, Grafana, Qlik Sense, Kibana, ELK, OpenShift, Python ML/DL libraries, PySpark, TensorFlow;

Две типовые задачи: BI (подключение к источнику как дата инженер) и ML (подключение к источнику данных и запаковка модели и выведение в пром.).

Распределение задач: Data инженер - 60% задач и ML – 30-40% задач.

Обязанности:

  • Проектирование и разработка корпоративной аналитической платформы (ПКАП);
  • Системная разработка, поддержка и оптимизация ETL-процессов и ML-моделей (MLOps) на платформах Greenplum и Hadoop;
  • R&D, реализация пилотов по выбору технологий и решений;
  • Поддержка промышленной эксплуатации разработанных решений;
  • Поддержание технической документации в актуальном состоянии;

Требования:

  • Опыт промышленной разработки на python (ETL-процессы Airflow);
  • Опыт с экосистемой Hadoop (HDFS, Hive, Impala, Spark, Oozie, ...);
  • Опыт работы с CI/CD решениями на базе Jenkins и Bitbucket/Git;
  • Опыт работы с популярными РСУБД (Greenplum, Teradata, Oracle, MSSQL);
  • Знание SQL, PL/SQL;
  • Знание основ администрирования ОС Linux;
  • Понимание построения хранилищ данных (DWH);

Будет плюсом:

  • Опыт программирования на Java/Scala;
  • Создание моделей машинного обучения, прохождение курсов по машинному обучению;
  • Понимание основ облачных технологий и технологий виртуализации и контейнеризации;
  • Практический опыт с автоматизацией развертывания ПО;
  • Опыт администрирования РСУБД;