Data Engineer

Требуемые навыки

Разработка ПО · Hadoop · C++

Местоположение и тип занятости

Москва

Компания

ТОП-5 международная компания в области IT безопасности. Один из лучших работодателей России

Описание вакансии

Кто мы:

Мы - команда инженеров, которая занимается развитием и поддержкой внутреннего хранилища данных в Лаборатории Касперского.

Наша платформа позволяет решать важные продуктовые задачи и принимать стратегические решения в компании.

Объем хранилища данных исчисляется терабайтами данных и продолжает расти. DWH реализован по методологии Кимбалла на базе MS SQL. В данный момент мы расширяем архитектуру хранилища, добавляя новый слой - DataLake на базе Hadoop и Hive, а также переходим на Airflow для загрузки данных в DataLake. В команде есть системные аналитики, кто работает с требованиями и взаимодействует с бизнес пользователями, поэтому разработчики могут сфокусироваться на инженерных задачах. Также, у нас есть архитектор, который помогает с проектированием и реализацией.

 

Вам предстоит:

  • Совместно с архитектором развивать DataLake и текущие подходы к обработке данных;
  • Заниматься разработкой и поддержкой процессов по загрузке данных в DataLake и DWH из гетерогенных источников;
  • Решать задачи оптимизации ETL-процессов и структур хранения данных при работе с большими объемами данных;
  • Разрабатывать процессы CI/CD и мониторинга процессов обработки данных;
  • Разрабатывать автотесты на процессы загрузки.
     

Мы ожидаем от Вас:

  • Отличное знание SQL и опыт оптимизации запросов;
  • Понимание принципов работы БД и построения хранилищ данных;
  • Опыт разработки на Python / Scala;
  • Опыт работы с любым из инструментов обработки данных: Airflow, Hadoop, Hive, Kafka, Spark, Spark Streaming;
  • Опыт работы с Linux на уровне опытного пользователя;
  • Непрерывное профессиональное развитие, к примеру: изучение новых языков программирования, онлайн курсы, контрибьюты в открытые проекты, чтение книг, блогов, подкасты и т.д.
     

Будет плюсом:

  • Опыт работы с MS SQL Server (партиционирование, колоночные индексы) и MS SSIS;
  • Опыт работы с Docker, Kubernetes;
  • Опыт работы с Prometheus, Grafana.

Ваш отклик

Авторизуйтесь
Откликаться на вакансии могут только зарегистрированные пользователи.