Data инженер (удаленно)

4 сентября 2023

Требования

Москва, Санкт-Петербург, Нижний Новгород • Полный рабочий день • Можно удаленно

Международная компания, специализирующаяся на консалтинге, технологических услугах и аутсорсинге

Наша agile-команда создает информационную платформу GM TA (Global Markets Trading Analytics) в интересах Департамента Глобальных Рынков (ДГР).

ДГР – предоставляет корпоративным и розничным клиентам широкий спектр продуктов и услуг на локальных и зарубежных финансовых рынках.

Этот бизнес потребляет и порождает огромное количество данных, которые должны обрабатываться c целью:

поддержки регулярных бизнес-операций
проведения Ad hoc анализа
подготовки регулярной аналитической / управленческой отчетности
разработки моделей машинного обучения, направленных на решение широкого спектра прикладных задач прогнозирования, классификации, кластеризации, выявления поведенческих паттернов и отклонений от них, сентимент-анализ и т.д.

Разрабатываемая нами информационная платформа – высоконагруженное решение, призванное обеспечить достижение всех этих целей.

Текущий инструментальный стек платформы:

Теоретические знания

Процессы сбора данных
ETL / ELT – примеры, назначение и подходы к использованию
Интеграционные шины – примеры, назначение и подходы к использованию
Оркестраторы – примеры, назначение и подходы к использованию
Лямбда-архитектура, streaming и batch режимы загрузки данных - назначение и особенности использования

Уверенные практические навыки (hand zone)

Практический опыт работы кандидата в активной фазе – то, что ежедневно практикуется в течение последнего года по направлениям:

DevOps
Фреймворки для ведения распределенной коллективной разработки – практика использования конкретных фреймворков – GitHub, BitBucket
Тестирование кода, регрессионное тестирование – что конкретно делается и как именно
Практика использования фреймворков для контроля за ходом проектных работ – Jira, Confluence

СУБД и модели данных

Нормализованные и денормализованные модели данных: 1NF, 2NF, 3NF, Data Vault, Star и Snowflow scheme – назначение и принципиальные отличия
Row и Column based БД – примеры, назначение и подходы к использованию
Индексы, партиционирование - какие бывают, примеры использования
Планы запросов, типы join-ов: nested loops, merge join, hash join. Чем отличаются
Процессы сбора данных (практика использования конкретных инструментов)
ETL / ELT
Интеграционные шины
Оркестраторы
Streaming и Batch режимы загрузки данных