Data Engineer (DWH)
Требования
Условия
Компания
Описание вакансии
О компании и команде
Команда занимается развитием и поддержкой корпоративного хранилища данных в Лаборатории Касперского. Один из ключевых проектов - подготовка данных для системы маркетинговых коммуникаций. На текущий момент мы меняем архитектуру проекта с батчевых процессов на стриминговую модель (Kafka + Spark Streaming) Также мы активно занимаемся развитием DataLake на базе Hadoop (ArenaData) и подключаем всё больше новых источников данных. ETL процессы реализуются на связке Airflow, Spark, Hive.
Ожидания от кандидата
- Уверенное знание SQL;
- Понимание принципов работы БД и построения хранилищ данных;
- Опыт работы с большими объемами данных и оптимизации производительности;
- Опыт разработки на Python;
- Опыт работы с Hadoop стеком (Spark, Hive);
- Опыт работы с Airflow и ETL-инструментами.
Будет плюсом:
- Опыт разработки стриминговых пайплайнов;
- Опыт работы с Kafka;
- Опыт работы с MS SQL Server;
- Опыт работы с С#;
- Опыт работы с Docker, Kubernetes;
- Опыт работы с Prometheus, Grafana.
Условия работы
Вам предстоит:
- Разработка процессов загрузки данных из внешних источников в DataLake и формирование витрин данных в DWH (Airflow, Spark, Hive);
- Разработка стриминговых пайплайнов на Spark Streaming;
- Совместно с командой и архитектором заниматься развитием подходов к обработке данных;
- Разработка автотестов на процессы загрузки данных;
- Разработка мониторингов качества данных.
