Data Engineer

Местоположение и тип занятости

Москва

Компания

ТОП-3 международная компания в области IT-безопасности, один из лучших работодателей России

Описание вакансии

Условия работы

О нашей команде:

Команда занимается развитием и поддержкой корпоративного хранилища данных в Лаборатории Касперского.

Один из ключевых проектов - подготовка данных для системы маркетинговых коммуникаций.

На текущий момент мы меняем архитектуру проекта с батчевых процессов на стриминговую модель (Kafka + Spark Streaming)

Также мы активно занимаемся развитием DataLake на базе Hadoop (ArenaData) и подключаем всё больше новых источников данных.

ETL процессы реализуются на связке Airflow, Spark, Hive. 

Вам предстоит:

  • Разработка процессов загрузки данных из внешних источников в DataLake и формирование витрин данных в DWH (Airflow, Spark, Hive);
  • Разработка стриминговых пайплайнов на Spark Streaming;
  • Совместно с командой и архитектором заниматься развитием подходов к обработке данных;
  • Разработка автотестов на процессы загрузки данных;
  • Разработка мониторингов качества данных.

Мы ожидаем от Вас:

  • Уверенное знание SQL; 
  • Понимание принципов работы БД и построения хранилищ данных;
  • Опыт работы с большими объемами данных и оптимизации производительности;
  • Опыт разработки на Python ;
  • Опыт работы с Hadoop стеком (Spark,);
  • Опыт работы с Airflow и ETL-инструментами.

Будет плюсом:

  • Опыт разработки стриминговых пайплайнов;
  • Опыт работы с Kafka;
  • Scala\Java\С#;
  • Опыт работы с MS SQL Server;
  • Опыт работы с Docker, Kubernetes;
  • Опыт работы с Prometheus, Grafana.

Смотреть ещё вакансии