Data engineer (ML)
Требования
Местоположение и тип занятости
Компания
Описание вакансии
Условия работы
О проекте:
Наша agile-команда создает информационную платформу .
Платформа предоставляет корпоративным и розничным клиентам широкий спектр продуктов и услуг на локальных и зарубежных финансовых рынках. Ключевые направления бизнеса – Fx trading, Commodities, Equity, Founding, Fixed Income, Rates, Credit Valuation Adjustment, Structured Products, Investment Banking.
Этот бизнес потребляет и порождает огромное количество данных, которые должны обрабатываться c целью:
- поддержки регулярных бизнес-операций
- проведения Ad hoc анализа
- подготовки регулярной аналитической / управленческой отчетности
- разработки моделей машинного обучения, направленных на решение широкого спектра прикладных задач прогнозирования, классификации, кластеризации, выявления поведенческих паттернов и отклонений от них, сентимент-анализ и т.д.
Разрабатываемая нами информационная платформа – высоконагруженное решение, призванное обеспечить достижение всех этих целей.
Текущий инструментальный стек платформы:
Python, Java, Informatica PowerCenter, Kafka, AirFlow, InfluxDB, kdb+, OneTick, MS SQL, PostgreSQL, MongoDB, Grafana, Qlik Sense, Kibana, ELK, OpenShift, Python ML/DL libraries, PySpark, TensorFlow;
Две типовые задачи: BI (подключение к источнику как дата инженер) и ML (подключение к источнику данных и запаковка модели и выведение в пром.).
Распределение задач: Data инженер - 60% задач и ML – 30-40% задач.
Обязанности:
- Проектирование и разработка корпоративной аналитической платформы (ПКАП);
- Системная разработка, поддержка и оптимизация ETL-процессов и ML-моделей (MLOps) на платформах Greenplum и Hadoop;
- R&D, реализация пилотов по выбору технологий и решений;
- Поддержка промышленной эксплуатации разработанных решений;
- Поддержание технической документации в актуальном состоянии;
Требования:
- Опыт промышленной разработки на python (ETL-процессы Airflow);
- Опыт с экосистемой Hadoop (HDFS, Hive, Impala, Spark, Oozie, ...);
- Опыт работы с CI/CD решениями на базе Jenkins и Bitbucket/Git;
- Опыт работы с популярными РСУБД (Greenplum, Teradata, Oracle, MSSQL);
- Знание SQL, PL/SQL;
- Знание основ администрирования ОС Linux;
- Понимание построения хранилищ данных (DWH);
Будет плюсом:
- Опыт программирования на Java/Scala;
- Создание моделей машинного обучения, прохождение курсов по машинному обучению;
- Понимание основ облачных технологий и технологий виртуализации и контейнеризации;
- Практический опыт с автоматизацией развертывания ПО;
- Опыт администрирования РСУБД;