👀 Дизайнеры, с какой командой вы мэтчитесь по вайбам? Проверяйте на Вайб-чеке→ vibe.habr.com

Data engineer (Python, Hadoop, Spark)

Местоположение и тип занятости

Полный рабочий деньМожно удаленно

Компания

IT-компания и основной цифровой партнер торговых сетей и бизнесов X5 Group

Описание вакансии

Условия работы

X5 Group - лидер офлайн- и онлайн-рынка продуктов питания. Мы управляем портфелем брендов сетевых магазинов «Пятёрочка», «Перекрёсток», «Карусель», «Чижик», цифровыми бизнесами «Перекрёсток Впрок», «Около», 5Post, а также собственными службами логистики, прямого импорта и рядом цифровых сервисов для партнёров.

Х5 Технологии — это отдельная бизнес-единица Х5 Group, которая отвечает за создание комплексных цифровых решений для бизнес-единиц Х5.

Наша команда — это 3000+ специалистов по информационным технологиям и большим данным. Мы разрабатываем решения, которые помогают десяткам миллионов людей. Ищем data engineer.

«Прогнозирование спроса»: модели машинного обучения и алгоритмы, на основе данных по чекам и остаткам предупреждают сотрудников магазинов о том, что надо проверить/положить товар на полки. Продукт прошел стадию пилот (600 магазинов) и теперь дорабатывается и масштабируется на 15+ тыс. магазинов. Команда: ≈10 человек

    Стек: Python 3.6-3.9., Fastapi, Hadoop, PySpark + Airflow. PostgreSQL, Kafka. Docker, K8s, GitLab.

    Основные задачи (детальнее расскажем на собеседовании):

    • Написание пайплайнов по работе с данными с использованием Airflow, Spark (пример: регулярный расчет фичей для модели, построение витрин с данными. их обновление, расчет метрик качества данных для мониторинга)
    • Оптимизация расчета фичей для модели для выдерживания SLA при масштабировании продукта под большее количество магазинов
    • Настройка мониторинга и алертинга качества данных и фичей с использованием Zabbix, Grafana
    • Написание unit тестов (pytest), тестов для различных участков ML пайплайна, участие в код ревью

    Мы сможем рассмотреть на вакансию кандидатов, у которых есть:

    • Опыт с Hadoop, Hive, Spark
    • Опыт работы с Python от 2 лет
    • Знание SQL (чтобы писать и оптимизировать запросы)
    • Знание классических алгоритмов и структур данных
    • Опыт работы с docker (kubernetes, pyspark, airflow и ds фреймворков python– не обязательно, но будет плюсом)
    • Умение пользоваться git'ом и работать в команде


    Бонусы

    Предлагаем:

    • Схема мотивации: Fix +  квартальный и годовой бонус
    • 100% удаленная работа или гибридный график для Москвы
    • Обратная связь, возможность профессионального и карьерного роста (2 раза в год оценка персонала)
    • Возможность обучаться и сертифицироваться за счёт компании: внешние тренинги и семинары по профессиональным тематикам, отраслевые конференции, программа развития управленческих навыков, очные мастер-классы, платформы онлайн-образования и многое другое
    • Яркая корпоративная жизнь с большим количеством мероприятий, конкурсов и возможностей для творческой реализации
    • Широкий пакет ДМС (включая выезд за рубеж и стоматологию), страхование жизни и здоровья
    • Программу привилегий Prime-zone (скидки на товары и услуги и специальные предложения от компаний-партнёров)
    • Материальную помощь сотрудникам, попавшим в сложную жизненную ситуацию

    Дополнительные инструкции

    Проще всего написать в телеграмм (скинуть ссылку на резюме, указать, что отклик на эту вакансию, Ваш номер сотового), и я свяжусь с Вами.  

    Мария Мусихина, +7 912 263 18 86, по номеру WhatsApp и Telegram @Mariavld.  E-mail, на всякий случай, Mariya.Musikhina@x5.ru

    Этапы: звонок от HR - тех. интервью online - интервью с командой online - анкета и оффер