👀 Дизайнеры, какая команда подходит вам по вайбам? Проверяйте на Вайб-чеке→ vibe.habr.com

Инженер данных DWH в Маркет

Местоположение и тип занятости

Москва, Санкт-Петербург, ЕкатеринбургПолный рабочий деньМожно удаленно

Компания

Компания, которая развивает самую популярную в России поисковую систему и десятки других сервисов

Описание вакансии

Условия работы

Мы команда инженеров данных, и продукт нашей команды — Data WareHouse (хранилище данных), которое мы строим для нужд бизнес-подразделений. Нашими пользователями являются как руководители Маркета, которым нужна отчётность для принятия решений, так и эксперты в области глубокого анализа данных. Можно утверждать, что все бизнес-подразделения Маркета являются потребителями поставляемых нами данных. Технологически ядро хранилища построено на системах хранения данных Yandex Tables (Hadoop собственной разработки), Greenplum и СlickHouse. Разработка процессов ETL идёт на собственном фреймворке, который создан внутри Яндекса. Для организации модели хранения данных на разных уровнях применяются подходы от Data Lake до Data Vault. Наше хранилище данных сейчас одно из самых крупных в России — порядка 10 петабайт — и с учётом темпов роста бизнеса оно будет самым большим. Стоит отметить, что к нему предъявляются высокие требования по надёжности, что ставит перед нашей командой далеко не тривиальные задачи, для которых нет готовых решений.

Что нужно делать:

  • вести разработку ETL-процессов поставки данных;
  • выявлять неэффективность в существующих процессах и оптимизировать их;
  • проектировать структуру хранения данных;
  • участвовать в развитии фреймворка поставки данных;
  • погружаться в данные одной из прикладных бизнес-областей и становиться в них экспертом;
  • сопровождать разработанные процессы ETL.

Мы ждем, что вы:

  • уверенно знаете Python на уровне написания собственного фреймворка или SQL на уровне оптимизации запросов (если нет опыта с Python и SQL, мы поможем);
  • знаете основные алгоритмы и структуры данных, особенно используемые в области работы с большими данными.

Будет плюсом, если вы:

  • проектировали DWH: слои, модели хранения данных, процессы ETL;
  • понимаете принципы работы хотя бы одной технологии распределенной обработки данных: Hadoop, MapReduce, ClickHouse, Greenplum, MPP;
  • имеете опыт промышленной разработки на одном из языков высокого уровня: Java или C++;
  • умеете работать в командной строке систем Unix-like: Linux, macOS.

Условия:

  • современный офис, в котором есть вся необходимая инфраструктура для комфортной работы и отдыха, можем обсудить и удалённую работу, если ваш часовой пояс недалеко от Москвы и вы готовы быть на связи;
  • официальное трудоустройство, компенсация оплаты питания на территории кампуса и в его окрестностях;
  • гибкий график: мы не контролируем ваше время, главное — выполнять задачи;
  • профессиональная команда, у которой можно многому научиться и перенять полезный опыт;
  • культура открытости и взаимопомощи: у нас работают увлеченные люди, небезразличные к тому, что они делают;
  • высокая скорость процессов и возможность быстро увидеть свой вклад;
  • работа в технологической компании, которая создает сервисы, приносящие пользу миллионам людей.