🎃 Как преодолеть свои страхи во время поиска работы? Бросить себе вызов → вступить в челлендж страхов Хабр Карьеры

Data Engineer в Вертикали

Местоположение и тип занятости

МоскваПолный рабочий день

Компания

Компания, которая развивает самую популярную в России поисковую систему и десятки других сервисов

Описание вакансии

О компании и команде

Яндекс Вертикали — это пять крупных продуктов: сервисы Путешествия, Авто.ру, Авто.ру Бизнес, Недвижимость и Аренда.

Наша команда разработки аналитической инфраструктуры занимается полным циклом обработки данных. Он включает сбор, хранение, валидацию и комбинирование всех знаний о бизнесе. Ключевое направление нашей деятельности — аналитическое хранилище данных (DWH), которое мы строим для нужд бизнес-подразделений. Наши пользователи — это и продуктовые команды, которым нужна регулярная отчётность для принятия решений, и эксперты в области глубокого анализа данных.

Технологически ядро хранилища построено на системах хранения данных Yandex Tables (кластер MapReduce собственной разработки), СlickHouse и PostgreSQL. Для разработки, оркестрации и мониторинга ETL-процессов используем собственный фреймворк, разработанный в Яндексе. Для организации модели хранения данных на разных уровнях применяем различные методологии проектирования хранилищ данных: Lambda-архитектуру, Data Lake, Data Vault.

Ожидания от кандидата

Какие задачи вас ждут:

Улучшение хранилища данных

Вы будете разрабатывать и сопровождать ETL-процессы поставки данных, проектировать структуру хранения данных в разных слоях хранилища, выявлять и оптимизировать неэффективные участки в процессах поставки данных. Кроме того, вы погрузитесь в данные одной или нескольких прикладных бизнес-областей, чтобы стать в них экспертом.

Мы ждем, что вы:

  • Прекрасно разбираетесь в SQL
  • Занимались промышленной разработкой на одном из языков высокого уровня: Python, Go, Java и т. д.
  • Понимаете устройство и архитектуру реляционных баз данных
  • Проектировали DWH: слои, модели хранения данных, ETL-процессы
  • Разрабатывали ETL-процессы на Apache Airflow
  • Знаете основные алгоритмы и структуры данных, особенно используемые в работе с большими данными
  • Настраивали поставки данных по API

Будет плюсом, если вы:

  • Понимаете принципы работы технологий распределённой обработки данных: Hadoop, MapReduce и MPP
  • Пользовались хотя бы одной MPP-СУБД: Greenplum, ClickHouse, Vertica, Teradata и т. д.
  • Работали с брокерами сообщений: Kafka, RabbitMQ и т. д.
  • Умеете работать в командной строке *nix-систем: Linux и macOS

Условия работы

Что мы предлагаем:

  • Работа в офисе в Москве (БЦ «Аврора», ст. м. «Павелецкая»), возможен гибридный формат работы
  • Офисы с большими парковками, кофе-пойнтами и стульями Herman Miller на каждом рабочем месте
  • Хорошее оборудование: на выбор мощный ноутбук Dell на Windows или Linux либо MacBook Pro, выделенная виртуалка с необходимыми ресурсами
  • Объёмный полис ДМС со стоматологией, коррекцией зрения, регулярной диагностикой и помощью при онкологических или сердечных заболеваниях, оплата 80% ДМС для близких родственников
  • Сотни корпоративных скидок во всех областях жизни
  • Компенсация питания в офисе