Data Engineer в команду Search Quality
Требования
Местоположение и тип занятости
Компания
Описание вакансии
О компании и команде
Мы — команда качества поиска Авито. Мы создаем, внедряем и следим за качеством алгоритмов ранжирования объявлений, оптимизируя сценарии для десятков миллионов покупателей, продавцов и клиентов Авито. Разрабатываем пайплайны обработки данных для внедрения моделей машинного обучения, проектируем принципы разделения трафика и имплементируем их в наших алгоритмах.
В своей работе мы собираем данные об объявлениях и пользовательской активности из разных источников, обогащаем и строим на их основе общедоступные агрегаты и модели. Наш кластер Apache Spark ежедневно обрабатывает события от десятков миллионов активных пользователей. Он постоянно поставляет данные в продуктовые сервисы, а также является аналитической платформой для нескольких десятков аналитиков поиска, вертикалей и монетизации.
Наш вызов — дать аналитикам и инженерам максимально удобные инструменты и интеграции с имеющимися данными, при этом не забывая о их качестве и постоянных запросах на увеличение нагрузки, как от бизнеса, так и от растущей аудитории.
Вам предстоит:
- разрабатывать новые и поддерживать существующие продукты в составе кросс-функциональной команды;
- заниматься развитием существующей BigData-платформы с упреждением растущей нагрузки от новых задач и данных (90% задач связаны со Spark);
- создавать новые сервисы на Python и улучшать уже существующие;
- продвигать лучшие практики и делиться с командой своим опытом;
- предлагать новые подходы и тут же пробовать их в продакшене с реальными данными.
Ожидания от кандидата
- знаете и умеете писать на Python или Java/Scala (с переходом на Python);
- глубоко понимаете экосистему Hadoop/Spark/Hive и связанных продуктов;
- имеете опыт работы с данными/решали аналитические задачи;
- умеете администрировать Linux системы на базовом уровне;
- не боитесь нестандартных решений.
- имеете опыт работы с Apache Airflow, знаете принципы построения пайплайнов;
- разрабатывали бэкенд приложения на Flask/Asyncio/Django/другом Python фреймворке или Golang;
- разбираетесь в инфраструктуре Apache Kafka;
- писали стриминговые приложения на Apache Flink/Spark;
- использовали в своей работе для администрирования оркестраторы кластеров (Ansible, SaltStack, Puppet и др.)
- умеете и любите писать тесты, знаете подходы TDD, BDD;
- собирали CI/CD решения, умеете работать с Docker;
- работали с кластерными СУБД (Vertica, Clickhouse, Sphinx, Trino и др.).
Мы ждём, что вы:
Будет здорово, если вы:
Условия работы
- интересные и важные задачи на очень большом проекте;
- передовые технологии и подходы, возможность пробовать новое;
- опытные и заинтересованные коллеги, готовые оказать поддержку;
- возможность приносить пользу миллионам пользователей, реализуя решения, основанные на данных;
- личный бюджет на обучение, который можно тратить на книги, курсы и конференции;
- забота о здоровье: с первого дня у вас будет ДМС со стоматологией, в офисе принимают терапевт и массажист;
- возможность работать удаленно и по желанию посещать комфортный офис в Москве или Санкт-Петербурге.