Data инженер (удаленно)

Местоположение и тип занятости

Москва, Санкт-Петербург, Нижний НовгородПолный рабочий деньМожно удаленно

Компания

Международная компания, специализирующаяся на консалтинге, технологических услугах и аутсорсинге

Описание вакансии

О компании и команде

Наша agile-команда создает информационную платформу GM TA (Global Markets Trading Analytics) в интересах Департамента Глобальных Рынков (ДГР).

ДГР – предоставляет корпоративным и розничным клиентам широкий спектр продуктов и услуг на локальных и зарубежных финансовых рынках. 

Этот бизнес потребляет и порождает огромное количество данных, которые должны обрабатываться c целью:

  • поддержки регулярных бизнес-операций
  • проведения Ad hoc анализа
  • подготовки регулярной аналитической / управленческой отчетности
  • разработки моделей машинного обучения, направленных на решение широкого спектра прикладных задач прогнозирования, классификации, кластеризации, выявления поведенческих паттернов и отклонений от них, сентимент-анализ и т.д.

Разрабатываемая нами информационная платформа – высоконагруженное решение, призванное обеспечить достижение всех этих целей.

Текущий инструментальный стек платформы:

  • Python, Java
  • Informatica PowerCenter
  • Kafka, AirFlow
  • InfluxDB, kdb+, OneTick
  • MS SQL, PostgreSQL, MongoDB
  • Grafana, Qlik Sense, Kibana, ELK
  • OpenShift
  • Python ML/DL libraries, PySpark, TensorFlow

Ожидания от кандидата

Теоретические знания

  • Процессы сбора данных
    1. ETL / ELT – примеры, назначение и подходы к использованию
    2. Интеграционные шины – примеры, назначение и подходы к использованию
    3. Оркестраторы – примеры, назначение и подходы к использованию
    4. Лямбда-архитектура, streaming и batch режимы загрузки данных - назначение и особенности использования

    Уверенные практические навыки (hand zone)

    Практический опыт работы кандидата в активной фазе – то, что ежедневно практикуется в течение последнего года по направлениям:

    • DevOps
      1. Фреймворки для ведения распределенной коллективной разработки – практика использования конкретных фреймворков – GitHub, BitBucket
      2. Тестирование кода, регрессионное тестирование – что конкретно делается и как именно
      3. Практика использования фреймворков для контроля за ходом проектных работ – Jira, Confluence

      Условия работы

      СУБД и модели данных

      • Нормализованные и денормализованные модели данных: 1NF, 2NF, 3NF, Data Vault, Star и Snowflow scheme – назначение и принципиальные отличия
      • Row и Column based БД – примеры, назначение и подходы к использованию
      • Индексы, партиционирование - какие бывают, примеры использования
      • Планы запросов, типы join-ов: nested loops, merge join, hash join. Чем отличаются
      • Процессы сбора данных (практика использования конкретных инструментов)
      • ETL / ELT
      • Интеграционные шины
      • Оркестраторы
      • Streaming и Batch режимы загрузки данных