Junior Data Engineer

Местоположение и тип занятости

МоскваПолный рабочий деньМожно удаленно

Описание вакансии

О компании и команде

Мы в поиске младшего Инженера по работе с большими данными в направление дата инжиниринга, который будет участвовать в значимых для инфраструктуры данных в Lamoda проектах.

Чем предстоит заниматься:

  • Проектировать и разрабатывать ETL пайплайны данных на Airflow для Spark, Streaming, Hive, Trino et;
  • Оптимизировать действующие пайплайны в продуктах на основе платформ данных;
  • Настраивать интеграции с новыми источниками данных (Kafka, Postgres, S3, HDFS, Aerospike);
  • Работать в команде с аналитиками и ML специалистами для создания/развертывания инструментов и наборов данных, соответствующих их требованиям;
  • Изучать бизнес процессы, которые стоят за данными и исходя из них выстраивать логику обработки данных;
  • Мониторить нагрузку на кластер и оптимальность затрачиваемых приложениями ресурсов;
  • Обеспечивать качество данных в разных системах, адаптировать платформу Data Quality под нужды пользователей и поставщиков данных.


Ожидания от кандидата

  • Уверенное знание одного из языков программирования: Python, Java, Scala;
  • Знание основных структур данных;
  • Умение работать с Git и Gitlab/Github/Bitbucket, понимание что такое CI/CD;
  • Уверенное знание SQL (умение написать сложный запрос и оптимизировать его);
  • Знание основ Big Data:
    • понимание концепции распределенных вычислений;
    • понимание как работают различные файловые форматы;
    • понимание различий баз данных (Postgres, Clickhouse, Redis);
    • понимание подходов к обработке данных (streaming, batch);
  • Опыт работы с Hadoop, Spark, Hive, Airflow;
  • Знание английского языка достаточные для чтения технической документации.

    Будет плюсом:
  • Знание основных методологий разработки;
  • Понимание основ Docker и зачем он нужен;
  • Опыт реализации пайплайнов и витрин данных в продукте: работа с различными источниками и типами данных (Hive, S3, Kafka, Postgres, Redis);
  • Опыт или понимание основ оптимизации Spark приложений или SQL запросов;
  • Опыт изучения бизнес-процессов, которые стоят за данными, опыт выстраивания логики обработки данных.

Условия работы

  • Гибкий график работы: можно самостоятельно планировать время, нам важен сам результат;
  • работаем в гибридном режиме — можно приезжать в офис или работать из дома;
  • оплата участия в профессиональных конференциях, также организуем мероприятия, куда можно ходить и спикером, и зрителем, где сотрудники обмениваются опытом от технических тем до путешествий и бизнеса;
  • ноутбук и другая необходимая техника для работы;
  • ДМС с первого месяца, со стоматологией и чек-апом здоровья раз в год;
  • ежемесячные промокоды на Lamoda до 25%;
  • офис в БЦ Крылатские холмы, а также коворкинг в центре Санкт-Петербурга.