Data инженер (удаленно)
Требования
Местоположение и тип занятости
Компания
Описание вакансии
О компании и команде
Наша agile-команда создает информационную платформу GM TA (Global Markets Trading Analytics) в интересах Департамента Глобальных Рынков (ДГР).
ДГР – предоставляет корпоративным и розничным клиентам широкий спектр продуктов и услуг на локальных и зарубежных финансовых рынках.
Этот бизнес потребляет и порождает огромное количество данных, которые должны обрабатываться c целью:
- поддержки регулярных бизнес-операций
- проведения Ad hoc анализа
- подготовки регулярной аналитической / управленческой отчетности
- разработки моделей машинного обучения, направленных на решение широкого спектра прикладных задач прогнозирования, классификации, кластеризации, выявления поведенческих паттернов и отклонений от них, сентимент-анализ и т.д.
Разрабатываемая нами информационная платформа – высоконагруженное решение, призванное обеспечить достижение всех этих целей.
Текущий инструментальный стек платформы:
- Python, Java
- Informatica PowerCenter
- Kafka, AirFlow
- InfluxDB, kdb+, OneTick
- MS SQL, PostgreSQL, MongoDB
- Grafana, Qlik Sense, Kibana, ELK
- OpenShift
- Python ML/DL libraries, PySpark, TensorFlow
Ожидания от кандидата
Теоретические знания
- Процессы сбора данных
- ETL / ELT – примеры, назначение и подходы к использованию
- Интеграционные шины – примеры, назначение и подходы к использованию
- Оркестраторы – примеры, назначение и подходы к использованию
- Лямбда-архитектура, streaming и batch режимы загрузки данных - назначение и особенности использования
Уверенные практические навыки (hand zone)
Практический опыт работы кандидата в активной фазе – то, что ежедневно практикуется в течение последнего года по направлениям:
- DevOps
- Фреймворки для ведения распределенной коллективной разработки – практика использования конкретных фреймворков – GitHub, BitBucket
- Тестирование кода, регрессионное тестирование – что конкретно делается и как именно
- Практика использования фреймворков для контроля за ходом проектных работ – Jira, Confluence
Условия работы
СУБД и модели данных
- Нормализованные и денормализованные модели данных: 1NF, 2NF, 3NF, Data Vault, Star и Snowflow scheme – назначение и принципиальные отличия
- Row и Column based БД – примеры, назначение и подходы к использованию
- Индексы, партиционирование - какие бывают, примеры использования
- Планы запросов, типы join-ов: nested loops, merge join, hash join. Чем отличаются
- Процессы сбора данных (практика использования конкретных инструментов)
- ETL / ELT
- Интеграционные шины
- Оркестраторы
- Streaming и Batch режимы загрузки данных