Data Engineer
Местоположение и тип занятости
Компания
Описание вакансии
Кто мы:
Мы - команда инженеров, которая занимается развитием и поддержкой внутреннего хранилища данных в Лаборатории Касперского.
Наша платформа позволяет решать важные продуктовые задачи и принимать стратегические решения в компании.
Объем хранилища данных исчисляется терабайтами данных и продолжает расти. DWH реализован по методологии Кимбалла на базе MS SQL. В данный момент мы расширяем архитектуру хранилища, добавляя новый слой - DataLake на базе Hadoop и Hive, а также переходим на Airflow для загрузки данных в DataLake. В команде есть системные аналитики, кто работает с требованиями и взаимодействует с бизнес пользователями, поэтому разработчики могут сфокусироваться на инженерных задачах. Также, у нас есть архитектор, который помогает с проектированием и реализацией.
Вам предстоит:
- Совместно с архитектором развивать DataLake и текущие подходы к обработке данных;
- Заниматься разработкой и поддержкой процессов по загрузке данных в DataLake и DWH из гетерогенных источников;
- Решать задачи оптимизации ETL-процессов и структур хранения данных при работе с большими объемами данных;
- Разрабатывать процессы CI/CD и мониторинга процессов обработки данных;
- Разрабатывать автотесты на процессы загрузки.
Мы ожидаем от Вас:
- Отличное знание SQL и опыт оптимизации запросов;
- Понимание принципов работы БД и построения хранилищ данных;
- Опыт разработки на Python / Scala;
- Опыт работы с любым из инструментов обработки данных: Airflow, Hadoop, Hive, Kafka, Spark, Spark Streaming;
- Опыт работы с Linux на уровне опытного пользователя;
- Непрерывное профессиональное развитие, к примеру: изучение новых языков программирования, онлайн курсы, контрибьюты в открытые проекты, чтение книг, блогов, подкасты и т.д.
Будет плюсом:
- Опыт работы с MS SQL Server (партиционирование, колоночные индексы) и MS SSIS;
- Опыт работы с Docker, Kubernetes;
- Опыт работы с Prometheus, Grafana.
Ваш отклик
