Data Engineer
Требования
Местоположение и тип занятости
Компания
Разработка решений в области игорно-развлекательного контента
Описание вакансии
Условия работы
BroIT в поиске скилового Data Engineer, который усилит нашу команду.
У нас уже есть работающая система Data-аналитики. Сейчас расширяем возможности нашего хранилища LakeHouse для аналитики данных, так как ожидаем рост данных в хранилище со следующего года + готовимся к внедрению стриминга.
Так же есть потребность внедрить более современные сервисы в стеке Data Engineering.
Наш стек: AWS Kubernetes, GitLab, Apache Kafka, Confluent Schema Registry, Debezium, Hive Metastore, Trino, ksqlDB, Apache Spark, Delta, Alluxio, Apache Superset, Dagster, Jupyter, Prometheus, Grafana.
Задачи:
- развивать и поддерживать потоки поглощения данных из различных источников: kappa-архитектура, данные передаются через Kafka, используем коннекторы Debezium, возможна разработка собственных коннекторов к другим источникам;
- развивать и поддерживать модель хранения данных в нашем LakeHouse на базе Delta-таблиц
- работать с данными в MySQL, PostgreSQL, MongoDB и др;
- разрабатывать пайплайны обработки данных в Dagster;
- решать вопросы производительности работы сервисов Data Engineering;
- разрабатывать и развивать модель качества данных Quality Assurance;
- развивать инфраструктуру Data Analytics и Data Engineering, внедрять новые сервисы инфраструктуры.
Необходимые требования:
- уровень от middle+;
- знание и опыт программирования на Python;
- плюсом будет опыт программирования на Scala для Apache Spark;
- знание SQL, аналитический SQL - будет плюсом;
- опыт работы с сервисами из нашего стека: особенно нужен опыт работы с Kafka, SchemaRegistry, Spark Structured Streaming, ksqlDB;
- знание основных принципов работы ETL-систем, опыт работы с Dagster/Airflow будет плюсом;
- плюсом будет знание и опыт использования моделей качества данных Quality Assurance;
- плюсом будет наличие опыта по разработке своих коннекторов для Kafka;
- плюсом будут знания в области систем BI: как устроены витрины данных, как организуются данные для публикации в BI системах;
- плюсом будет опыт построения хранилищ данных и систем для анализа данных.