Lead/Senior Data Engineer

Зарплата

от 3500 до 5000 $

Местоположение и тип занятости

Полный рабочий деньМожно удаленно

Компания

Сервис подбора индивидуальных планов питания

Описание вакансии

Условия работы

Мы ищем Lead Data инженера в команду. Горизонтального руководителя направления. Ожидаем полное “закрытие” всех вопросов, связанных с данными в проекте (от сбора до анализа, что-то вы делаете сами, что-то выделяете в подзадачи для других и можете полностью проконтролировать выполнение), в том числе дальнейшим наймом людей в команду.


О проекте: Наш проект g-plans.com (на самом деле группа проектов) занимается составлением планов здорового питания. Компания работает 3 с половиной года, активно расширяемся. Большая часть разработка русскоязычная, но для полноценной работы понадобится знание английского (написать заключение, предложение или объяснить что-то в slack).

BONUS:  Сейчас мы в том числе работаем по новому проекту. SaaS B2B сервис, в котором Data Engineering составляющая – существенная. Стадия проектирования, постепенно разворачиваем инфраструктуру, поднимаем инвестиции и будем добирать команду (в том числе дата инженеров). Более подробно расскажем на собеседовании.

О команде: На данный момент в Data-подразделении работают 3 человека (Data Analysts, Analyst, Data Engineer).Нет никакого формализма и бюрократии, у каждого своя зона ответственности, о формате работы договариваемся так, чтобы было удобно и результативно.

Основные обязанности:

  • Автоматизация процессов сбора, хранения и анализа данных из различных источников (batch загрузки, выгрузка с API, прием данных/events)
  • Автоматизация процессов подготовки данных к отчетам: обработки, «обогащения» и нормализации данных, построение актуальных статистик данных
  • Поддержка продукта при изменениях в интерфейсах и форматах данных поставщиков
  • Контроль инфраструктуры работы с данными и консистентности данных.

Основные требования:

  • Опыт работы в data engineering от 2-3 лет+:
  • Проектирование ETL/ELT
  • Проектирование Data Warehouses / Data Lakes
  • Работа с различными системами сбора и обработки данных: Kafka, Kinesis, Beam, Airflow, Google Dataflow, Google Dataproc and similar tools
  • Знание Anchor / Data Vault или подобных подходов к моделированию
  • Плюсом будет опыт работы конкретно со стеком GCP (Pub/Sub, BigQuery, Cloud Functions, etc.)Английский (читать \ писать в чат \ начальный разговорный)

Текущий стек:

  • BigQuery (основное хранилище)
  • Elastic, Postgres (хранилища конкретных приложений проекта)
  • Pub/Sub, Cloud Functions
  • Stitch (часть API подключаем через него)
  • Airflow (ETL/ELT orchestration)
  • DBT
  • AutoML (h2o), DVC
  • Для анализа и отчетов используем –Superset, Redash, Grafana, Plotly Dash + raw SQL / Python Notebooks 

Текущие ресурсы:

  • DevOps – команда, которая поможет, если нужно настроить CI/CD для какого-то ETL или другого инфраструктурного процесса
  • Application Development – команды разработки основных приложений проекта: серверного API, web воронки продаж и мобильного приложения
  • Google Cloud Projects

Бонусы