👀 Дизайнеры, с какой командой вы мэтчитесь по вайбам? Проверяйте на Вайб-чеке→ vibe.habr.com

Data engineer (интеграция с источниками)

Местоположение и тип занятости

Полный рабочий деньМожно удаленно

Компания

IT-компания и основной цифровой партнер торговых сетей и бизнесов X5 Group

Описание вакансии

Условия работы

В команде ETL X5 Технологии, в связи расширением и появлением новых задач по загрузке новых данных, открыта позиция Data engineer (интеграция с источниками)

На данный момент, у нас построен кластер Hadoop общей емкостью 1 петабайт. Команда ETL отвечает за интеграцию кластера с источниками данных.

Мы загружаем данные из различных источников данных (как внутри компании, так и извне) в кластер Hadoop.

Результат работы разработанных нашей командой механизмов - стабильно обновляемые базы данных в Hive. На основе этих баз данных команда разрабатывает различные продукты для широкого круга заказчиков внутри X5 group и снаружи.

Наш стек: Apache Nifi, Kafka, Hadoop, Hive, Sqoop, Postgres

Чем предстоит заниматься:

Разработка приложений загрузки данных;

Валидация данных;

Отладка потоков данных;

Исправление ошибок загрузки данных.

Бонусы

Мы предлагаем:

  • У нас удаленка, но если очень хочется в офис, то есть коворкинги рядом с м. Парк Культуры, Добрынинская, Волгоградский проспект;
  • Гибкий график работы;
  • Оформление по ТК РФ с официальной заработной платой;
  • Возможность обучаться и сертифицироваться за счет компании: очные мастер-классы, платформы онлайн - образования, электронная библиотека;
  • Бонусная программа: ДМС со стоматологией, консультации психолога, страхование жизни и выезжающих за рубеж, скидки в магазинах сети Х5, скидки от компаний-партнеров на Prime-zone.

Дополнительные инструкции

Наш кандидат:

  • Знание SQL (индексы, функции, умение читать планы запросов). Опыт работы с любой реляционной БД (Oracle, Postgres, MySQL, MsSQL, DB2 и т.п.).
  • Умение писать на любом скриптовом языке (Python, Groovy и т.п.).
  • Умение работать с Git в консоли.
  • Опыт работы с любым графическим ETL инструментом (Apache Nifi, Airflow, Talend, Informatica, SAS и т.п.).
  • Опыт работы с Apache Kafka и системами хранения и визуализации логов (примеры - EFK, Graylog). Опыт работы с Grafana.
  • Опыт работы с Hadoop. Понимание устройства HDFS, форматов данных. Опыт работы с Hive или любым другим хранилищем на основе Hadoop.

Будет плюсом

  • Опыт работы с NoSQL (Mongo, Redis, Kassandra, Clickhouse и т.п.)
  • Опыт работы в смежных областях (Саппорт, системный анализ и т.п.)
  • Опыт работы в больших компаниях