Data engineer (интеграция с источниками)
Требования
Местоположение и тип занятости
Компания
Описание вакансии
Условия работы
В команде ETL X5 Технологии, в связи расширением и появлением новых задач по загрузке новых данных, открыта позиция Data engineer (интеграция с источниками)
На данный момент, у нас построен кластер Hadoop общей емкостью 1 петабайт. Команда ETL отвечает за интеграцию кластера с источниками данных.
Мы загружаем данные из различных источников данных (как внутри компании, так и извне) в кластер Hadoop.
Результат работы разработанных нашей командой механизмов - стабильно обновляемые базы данных в Hive. На основе этих баз данных команда разрабатывает различные продукты для широкого круга заказчиков внутри X5 group и снаружи.
Наш стек: Apache Nifi, Kafka, Hadoop, Hive, Sqoop, Postgres
Чем предстоит заниматься:
Разработка приложений загрузки данных;
Валидация данных;
Отладка потоков данных;
Исправление ошибок загрузки данных.
Бонусы
Мы предлагаем:
- У нас удаленка, но если очень хочется в офис, то есть коворкинги рядом с м. Парк Культуры, Добрынинская, Волгоградский проспект;
- Гибкий график работы;
- Оформление по ТК РФ с официальной заработной платой;
- Возможность обучаться и сертифицироваться за счет компании: очные мастер-классы, платформы онлайн - образования, электронная библиотека;
- Бонусная программа: ДМС со стоматологией, консультации психолога, страхование жизни и выезжающих за рубеж, скидки в магазинах сети Х5, скидки от компаний-партнеров на Prime-zone.
Дополнительные инструкции
Наш кандидат:
- Знание SQL (индексы, функции, умение читать планы запросов). Опыт работы с любой реляционной БД (Oracle, Postgres, MySQL, MsSQL, DB2 и т.п.).
- Умение писать на любом скриптовом языке (Python, Groovy и т.п.).
- Умение работать с Git в консоли.
- Опыт работы с любым графическим ETL инструментом (Apache Nifi, Airflow, Talend, Informatica, SAS и т.п.).
- Опыт работы с Apache Kafka и системами хранения и визуализации логов (примеры - EFK, Graylog). Опыт работы с Grafana.
- Опыт работы с Hadoop. Понимание устройства HDFS, форматов данных. Опыт работы с Hive или любым другим хранилищем на основе Hadoop.
Будет плюсом
- Опыт работы с NoSQL (Mongo, Redis, Kassandra, Clickhouse и т.п.)
- Опыт работы в смежных областях (Саппорт, системный анализ и т.п.)
- Опыт работы в больших компаниях