Data Engineer

28 июня 2022

Требования

Москва

ТОП-3 международная компания в области IT-безопасности, один из лучших работодателей России

О нашей команде:

Команда занимается развитием и поддержкой корпоративного хранилища данных в Лаборатории Касперского.

Один из ключевых проектов - подготовка данных для системы маркетинговых коммуникаций.

На текущий момент мы меняем архитектуру проекта с батчевых процессов на стриминговую модель (Kafka + Spark Streaming)

Также мы активно занимаемся развитием DataLake на базе Hadoop (ArenaData) и подключаем всё больше новых источников данных.

ETL процессы реализуются на связке Airflow, Spark, Hive.

Вам предстоит:

Разработка процессов загрузки данных из внешних источников в DataLake и формирование витрин данных в DWH (Airflow, Spark, Hive);
Разработка стриминговых пайплайнов на Spark Streaming;
Совместно с командой и архитектором заниматься развитием подходов к обработке данных;
Разработка автотестов на процессы загрузки данных;
Разработка мониторингов качества данных.

Мы ожидаем от Вас:

Будет плюсом: