Data Engineer

Местоположение и тип занятости

Полный рабочий деньМожно удаленно

Компания

Разработка решений в области игорно-развлекательного контента

Описание вакансии

Условия работы

BroIT в поиске скилового Data Engineer, который усилит нашу команду.

У нас уже есть работающая система Data-аналитики. Сейчас расширяем возможности нашего хранилища LakeHouse для аналитики данных, так как ожидаем рост данных в хранилище со следующего года + готовимся к внедрению стриминга.
Так же есть потребность внедрить более современные сервисы в стеке Data Engineering.

Наш стек: AWS Kubernetes, GitLab, Apache Kafka, Confluent Schema Registry, Debezium, Hive Metastore, Trino, ksqlDB, Apache Spark, Delta, Alluxio, Apache Superset, Dagster, Jupyter, Prometheus, Grafana.

Задачи:

  • развивать и поддерживать потоки поглощения данных из различных источников: kappa-архитектура, данные передаются через Kafka, используем коннекторы Debezium, возможна разработка собственных коннекторов к другим источникам;
  • развивать  и поддерживать модель хранения данных в нашем  LakeHouse на базе Delta-таблиц
  • работать с данными в MySQL, PostgreSQL, MongoDB и др;
  • разрабатывать пайплайны обработки данных в Dagster;
  • решать вопросы производительности работы сервисов Data Engineering;
  • разрабатывать и развивать модель качества данных Quality Assurance;
  • развивать инфраструктуру Data Analytics и Data Engineering, внедрять новые сервисы инфраструктуры.

Необходимые требования:

  • уровень от middle+;
  • знание и опыт программирования на Python;
  • плюсом будет опыт программирования на Scala для Apache Spark;
  • знание SQL, аналитический SQL - будет плюсом;
  • опыт работы с сервисами из нашего стека: особенно нужен опыт работы с Kafka, SchemaRegistry, Spark Structured Streaming, ksqlDB;
  • знание основных принципов работы ETL-систем, опыт работы с Dagster/Airflow будет плюсом;
  • плюсом будет знание и опыт использования моделей  качества данных Quality Assurance;
  • плюсом будет наличие опыта по разработке своих коннекторов для Kafka;
  • плюсом будут знания в области систем BI: как устроены витрины данных, как организуются данные для публикации в BI системах;
  • плюсом будет опыт построения хранилищ данных и систем для анализа данных.