Инженер данных
Требования
Местоположение и тип занятости
Компания
Российский телеком-оператор с 50 миллионами клиентов и 30 тысячами сотрудников
Описание вакансии
О компании и команде
Наша команда каждый день работает над повышением качества связи и отвечает за стабильный сервис для тебя. Профессионалы билайн уверенно создают надежную связь по всей территории нашей страны: в небольших поселках и крупных городах, на вершинах гор и под землей.
Если ты готовы решать сложные и масштабные задачи в команде экспертов — мы ждем твое резюме!
Тебе предстоит заниматься:
- анализом требований к витринам данных (взаимодействие с владельцем продукта, BI-разработчиками, data scientist-ами, аналитиками);
- поиском и исследованием источников данных для последующей интеграции;
- оценкой пригодности, качества исходных данных;
- разработкой ETL процессов на Spark, оркестрацией ETL процессов в Airflow;
- проектированием баз данных.
Ожидания от кандидата
Мы понимаем, что каждый DE индивидуален. Поэтому даем описание как бы выглядел идеальный кандидат. Недостающие навыки можно подтянуть у нас.
DE в Билайн:
- умеет работать в команде;
- проработал от 1 года и более в таких областях как: коммуникационные технологии, безопасность, маркетинг и продажи, финансы;
- знает SQL на высоком уровне (в т. ч. DDL, табличные выражения, оконные функции);
- работал с Hive, PostgreSQL;
- умеет разрабатывать ETL процессы Spark на Scala (потоковая обработка как преимущество);
- пользовался AirFlow или другими оркестраторами – Oozie, Luigi, ну или cron;
- может что-то написать на Python – в объеме чтобы пользоваться AirFlow или еще круче;
- имеет опыт потоковой разработки конвейеров данных в NiFi или Flink;
- интересуется Flink, пробовал применять его в проектах;
- умеет проектировать базы данных (знает Data Vault 2.0 например);
- понимает принципы работы реляционных СУБД и HDFS;
- имеет представление о колоночных и NoSQL СУБД;
- понимает подходы к работе с качеством данных;
- применяет системный подход к работе, думает о конечной бизнес-задаче, мыслит логически, уделяет внимание деталям.
Наш стек и технологии:
- Экосистема Hadoop – HDFS, YARN, Hive, HBase;
- ETL-процессы – Spark (Scala);
- Потоковая обработка – NiFi, Flink;
- Брокер сообщений – Kafka;
- Оркестрация ETL процессов – Airflow;
- СУБД – PostgreSQL, Greenplum, Aerospike, Oracle, SQL Server;
- CI/CD – GitLab.
Условия работы
- сплоченная команда профессионалов, в которой можно не только успешно реализовывать проекты, но и перенимать опыт и развиваться;
- обучение, участие в интересных проектах и расширение профессиональной экспертизы: мы участвуем в конференциях, митапах, публикуемся на Хабр и т.д.;
- конструктивную и открытую рабочую атмосферу;
- полис добровольного медицинского страхования, обслуживаемый в лучших клиниках;
- корпоративные скидки на фитнес, обучение, путешествия и т.п. от наших компаний-партнёров;
- служебную сотовую связь.