Data Engineer в Вертикали
Требования
Местоположение и тип занятости
Компания
Описание вакансии
О компании и команде
Яндекс Вертикали — это пять крупных продуктов: сервисы Путешествия, Авто.ру, Авто.ру Бизнес, Недвижимость и Аренда.
Наша команда разработки аналитической инфраструктуры занимается полным циклом обработки данных. Он включает сбор, хранение, валидацию и комбинирование всех знаний о бизнесе. Ключевое направление нашей деятельности — аналитическое хранилище данных (DWH), которое мы строим для нужд бизнес-подразделений. Наши пользователи — это и продуктовые команды, которым нужна регулярная отчётность для принятия решений, и эксперты в области глубокого анализа данных.
Технологически ядро хранилища построено на системах хранения данных Yandex Tables (кластер MapReduce собственной разработки), СlickHouse и PostgreSQL. Для разработки, оркестрации и мониторинга ETL-процессов используем собственный фреймворк, разработанный в Яндексе. Для организации модели хранения данных на разных уровнях применяем различные методологии проектирования хранилищ данных: Lambda-архитектуру, Data Lake, Data Vault.
Ожидания от кандидата
Какие задачи вас ждут:
Улучшение хранилища данных
Вы будете разрабатывать и сопровождать ETL-процессы поставки данных, проектировать структуру хранения данных в разных слоях хранилища, выявлять и оптимизировать неэффективные участки в процессах поставки данных. Кроме того, вы погрузитесь в данные одной или нескольких прикладных бизнес-областей, чтобы стать в них экспертом.
Мы ждем, что вы:
- Прекрасно разбираетесь в SQL
- Занимались промышленной разработкой на одном из языков высокого уровня: Python, Go, Java и т. д.
- Понимаете устройство и архитектуру реляционных баз данных
- Проектировали DWH: слои, модели хранения данных, ETL-процессы
- Разрабатывали ETL-процессы на Apache Airflow
- Знаете основные алгоритмы и структуры данных, особенно используемые в работе с большими данными
- Настраивали поставки данных по API
Будет плюсом, если вы:
- Понимаете принципы работы технологий распределённой обработки данных: Hadoop, MapReduce и MPP
- Пользовались хотя бы одной MPP-СУБД: Greenplum, ClickHouse, Vertica, Teradata и т. д.
- Работали с брокерами сообщений: Kafka, RabbitMQ и т. д.
- Умеете работать в командной строке *nix-систем: Linux и macOS
Условия работы
Что мы предлагаем:
- Работа в офисе в Москве (БЦ «Аврора», ст. м. «Павелецкая»), возможен гибридный формат работы
- Офисы с большими парковками, кофе-пойнтами и стульями Herman Miller на каждом рабочем месте
- Хорошее оборудование: на выбор мощный ноутбук Dell на Windows или Linux либо MacBook Pro, выделенная виртуалка с необходимыми ресурсами
- Объёмный полис ДМС со стоматологией, коррекцией зрения, регулярной диагностикой и помощью при онкологических или сердечных заболеваниях, оплата 80% ДМС для близких родственников
- Сотни корпоративных скидок во всех областях жизни
- Компенсация питания в офисе