Data Engineer в Вертикали

26 октября

Требования

Инженер по данным, Средний (Middle) • SQL • Python • ClickHouse • Apache Airflow

Местоположение и тип занятости

Москва • Полный рабочий день

Компания

Яндекс

Компания, которая развивает самую популярную в России поисковую систему и десятки других сервисов

Описание вакансии

О компании и команде

Яндекс Вертикали — это пять крупных продуктов: сервисы Путешествия, Авто.ру, Авто.ру Бизнес, Недвижимость и Аренда.

Наша команда разработки аналитической инфраструктуры занимается полным циклом обработки данных. Он включает сбор, хранение, валидацию и комбинирование всех знаний о бизнесе. Ключевое направление нашей деятельности — аналитическое хранилище данных (DWH), которое мы строим для нужд бизнес-подразделений. Наши пользователи — это и продуктовые команды, которым нужна регулярная отчётность для принятия решений, и эксперты в области глубокого анализа данных.

Технологически ядро хранилища построено на системах хранения данных Yandex Tables (кластер MapReduce собственной разработки), СlickHouse и PostgreSQL. Для разработки, оркестрации и мониторинга ETL-процессов используем собственный фреймворк, разработанный в Яндексе. Для организации модели хранения данных на разных уровнях применяем различные методологии проектирования хранилищ данных: Lambda-архитектуру, Data Lake, Data Vault.

Ожидания от кандидата

Какие задачи вас ждут:

Улучшение хранилища данных

Вы будете разрабатывать и сопровождать ETL-процессы поставки данных, проектировать структуру хранения данных в разных слоях хранилища, выявлять и оптимизировать неэффективные участки в процессах поставки данных. Кроме того, вы погрузитесь в данные одной или нескольких прикладных бизнес-областей, чтобы стать в них экспертом.

Мы ждем, что вы:

Прекрасно разбираетесь в SQL
Занимались промышленной разработкой на одном из языков высокого уровня: Python, Go, Java и т. д.
Понимаете устройство и архитектуру реляционных баз данных
Проектировали DWH: слои, модели хранения данных, ETL-процессы
Разрабатывали ETL-процессы на Apache Airflow
Знаете основные алгоритмы и структуры данных, особенно используемые в работе с большими данными
Настраивали поставки данных по API

Будет плюсом, если вы:

Понимаете принципы работы технологий распределённой обработки данных: Hadoop, MapReduce и MPP
Пользовались хотя бы одной MPP-СУБД: Greenplum, ClickHouse, Vertica, Teradata и т. д.
Работали с брокерами сообщений: Kafka, RabbitMQ и т. д.
Умеете работать в командной строке *nix-систем: Linux и macOS

Условия работы

Что мы предлагаем:

Работа в офисе в Москве (БЦ «Аврора», ст. м. «Павелецкая»), возможен гибридный формат работы
Офисы с большими парковками, кофе-пойнтами и стульями Herman Miller на каждом рабочем месте
Хорошее оборудование: на выбор мощный ноутбук Dell на Windows или Linux либо MacBook Pro, выделенная виртуалка с необходимыми ресурсами
Объёмный полис ДМС со стоматологией, коррекцией зрения, регулярной диагностикой и помощью при онкологических или сердечных заболеваниях, оплата 80% ДМС для близких родственников
Сотни корпоративных скидок во всех областях жизни
Компенсация питания в офисе

Смотреть ещё вакансии

Data Scientist

Data Scientist в Москве

Data Scientist в Москве на полный рабочий день

Data Scientist на полный рабочий день