Data Engineer в команду Search Quality

Местоположение и тип занятости

Полный рабочий деньМожно удаленно

Компания

Сервис объявлений, которым каждый месяц пользуется треть населения России

Описание вакансии

О компании и команде

Мы — команда качества поиска Авито. Мы создаем, внедряем и следим за качеством алгоритмов ранжирования объявлений, оптимизируя сценарии для десятков миллионов покупателей, продавцов и клиентов Авито. Разрабатываем пайплайны обработки данных для внедрения моделей машинного обучения, проектируем принципы разделения трафика и имплементируем их в наших алгоритмах. 

В своей работе мы собираем данные об объявлениях и пользовательской активности из разных источников, обогащаем и строим на их основе общедоступные агрегаты и модели. Наш кластер Apache Spark ежедневно обрабатывает события от десятков миллионов активных пользователей. Он постоянно поставляет данные в продуктовые сервисы, а также является аналитической платформой для нескольких десятков аналитиков поиска, вертикалей и монетизации. 

Наш вызов — дать аналитикам и инженерам максимально удобные инструменты и интеграции с имеющимися данными, при этом не забывая о их качестве и постоянных запросах на увеличение нагрузки, как от бизнеса, так и от растущей аудитории.

Вам предстоит:

  • разрабатывать новые и поддерживать существующие продукты в составе кросс-функциональной команды;
  • заниматься развитием существующей BigData-платформы с упреждением растущей нагрузки от новых задач и данных (90% задач связаны со Spark);
  • создавать новые сервисы на Python и улучшать уже существующие;
  • продвигать лучшие практики и делиться с командой своим опытом;
  • предлагать новые подходы и тут же пробовать их в продакшене с реальными данными.

Ожидания от кандидата

    Мы ждём, что вы:

    • знаете и умеете писать на Python или Java/Scala (с переходом на Python);
    • глубоко понимаете экосистему Hadoop/Spark/Hive и связанных продуктов;
    • имеете опыт работы с данными/решали аналитические задачи;
    • умеете администрировать Linux системы на базовом уровне;
    • не боитесь нестандартных решений.

    Будет здорово, если вы:

    • имеете опыт работы с Apache Airflow, знаете принципы построения пайплайнов;
    • разрабатывали бэкенд приложения на Flask/Asyncio/Django/другом Python фреймворке или Golang;
    • разбираетесь в инфраструктуре Apache Kafka;
    • писали стриминговые приложения на Apache Flink/Spark;
    • использовали в своей работе для администрирования оркестраторы кластеров (Ansible, SaltStack, Puppet и др.) 
    • умеете и любите писать тесты, знаете подходы TDD, BDD;
    • собирали CI/CD решения, умеете работать с Docker;
    • работали с кластерными СУБД (Vertica, Clickhouse, Sphinx, Trino и др.).

Условия работы

  • интересные и важные задачи на очень большом проекте;
  • передовые технологии и подходы, возможность пробовать новое;
  • опытные и заинтересованные коллеги, готовые оказать поддержку;
  • возможность приносить пользу миллионам пользователей, реализуя решения, основанные на данных;
  • личный бюджет на обучение, который можно тратить на книги, курсы и конференции;
  • забота о здоровье: с первого дня у вас будет ДМС со стоматологией, в офисе принимают терапевт и массажист;
  • возможность работать удаленно и по желанию посещать комфортный офис в Москве или Санкт-Петербурге.