Data Engineer
Требования
Местоположение и тип занятости
Компания
ТОП-3 международная компания в области IT-безопасности, один из лучших работодателей России
Описание вакансии
Условия работы
О нашей команде:
Команда занимается развитием и поддержкой корпоративного хранилища данных в Лаборатории Касперского.
Один из ключевых проектов - подготовка данных для системы маркетинговых коммуникаций.
На текущий момент мы меняем архитектуру проекта с батчевых процессов на стриминговую модель (Kafka + Spark Streaming)
Также мы активно занимаемся развитием DataLake на базе Hadoop (ArenaData) и подключаем всё больше новых источников данных.
ETL процессы реализуются на связке Airflow, Spark, Hive.
Вам предстоит:
- Разработка процессов загрузки данных из внешних источников в DataLake и формирование витрин данных в DWH (Airflow, Spark, Hive);
- Разработка стриминговых пайплайнов на Spark Streaming;
- Совместно с командой и архитектором заниматься развитием подходов к обработке данных;
- Разработка автотестов на процессы загрузки данных;
- Разработка мониторингов качества данных.
Мы ожидаем от Вас:
- Уверенное знание SQL;
- Понимание принципов работы БД и построения хранилищ данных;
- Опыт работы с большими объемами данных и оптимизации производительности;
- Опыт разработки на Python ;
- Опыт работы с Hadoop стеком (Spark,);
- Опыт работы с Airflow и ETL-инструментами.
Будет плюсом:
- Опыт разработки стриминговых пайплайнов;
- Опыт работы с Kafka;
- Scala\Java\С#;
- Опыт работы с MS SQL Server;
- Опыт работы с Docker, Kubernetes;
- Опыт работы с Prometheus, Grafana.