Lead/Senior Data Engineer
Зарплата
Требования
Местоположение и тип занятости
Компания
Описание вакансии
Условия работы
Мы ищем Lead Data инженера в команду. Горизонтального руководителя направления. Ожидаем полное “закрытие” всех вопросов, связанных с данными в проекте (от сбора до анализа, что-то вы делаете сами, что-то выделяете в подзадачи для других и можете полностью проконтролировать выполнение), в том числе дальнейшим наймом людей в команду.
О проекте: Наш проект g-plans.com (на самом деле группа проектов) занимается составлением планов здорового питания. Компания работает 3 с половиной года, активно расширяемся. Большая часть разработка русскоязычная, но для полноценной работы понадобится знание английского (написать заключение, предложение или объяснить что-то в slack).
BONUS: Сейчас мы в том числе работаем по новому проекту. SaaS B2B сервис, в котором Data Engineering составляющая – существенная. Стадия проектирования, постепенно разворачиваем инфраструктуру, поднимаем инвестиции и будем добирать команду (в том числе дата инженеров). Более подробно расскажем на собеседовании.
О команде: На данный момент в Data-подразделении работают 3 человека (Data Analysts, Analyst, Data Engineer).Нет никакого формализма и бюрократии, у каждого своя зона ответственности, о формате работы договариваемся так, чтобы было удобно и результативно.
Основные обязанности:
- Автоматизация процессов сбора, хранения и анализа данных из различных источников (batch загрузки, выгрузка с API, прием данных/events)
- Автоматизация процессов подготовки данных к отчетам: обработки, «обогащения» и нормализации данных, построение актуальных статистик данных
- Поддержка продукта при изменениях в интерфейсах и форматах данных поставщиков
- Контроль инфраструктуры работы с данными и консистентности данных.
Основные требования:
- Опыт работы в data engineering от 2-3 лет+:
- Проектирование ETL/ELT
- Проектирование Data Warehouses / Data Lakes
- Работа с различными системами сбора и обработки данных: Kafka, Kinesis, Beam, Airflow, Google Dataflow, Google Dataproc and similar tools
- Знание Anchor / Data Vault или подобных подходов к моделированию
- Плюсом будет опыт работы конкретно со стеком GCP (Pub/Sub, BigQuery, Cloud Functions, etc.)Английский (читать \ писать в чат \ начальный разговорный)
Текущий стек:
- BigQuery (основное хранилище)
- Elastic, Postgres (хранилища конкретных приложений проекта)
- Pub/Sub, Cloud Functions
- Stitch (часть API подключаем через него)
- Airflow (ETL/ELT orchestration)
- DBT
- AutoML (h2o), DVC
- Для анализа и отчетов используем –Superset, Redash, Grafana, Plotly Dash + raw SQL / Python Notebooks
Текущие ресурсы:
- DevOps – команда, которая поможет, если нужно настроить CI/CD для какого-то ETL или другого инфраструктурного процесса
- Application Development – команды разработки основных приложений проекта: серверного API, web воронки продаж и мобильного приложения
- Google Cloud Projects