Data Engineer

Зарплата

от 200 000 до 500 000 ₽

Местоположение и тип занятости

МоскваПолный рабочий деньМожно удалённо

Описание вакансии

О компании и команде

Наша сфера - интернет-траффик и всё, что с ним связано=) + Активно развиваемся в сторону нейросетей
В нашем арсенале более 10 внутренних b2b и b2c проектов собственной разработки.​​​​​​​​​​​​​​

Текущая задача: выстроить с нуля архитектуру ML отдела для нашего нового, но уже профитного, игрового продукта мирового масштаба, который динамично растет вместе с командой.​​​​​​​

Мы формируем новую Data Engineering-команду с амбициозной задачей выстроить Lakehouse-инфраструктуру с нуля. В компании уже есть сильные специалисты и ресурсы во всех смежных направлениях, и теперь нам нужен Data Engineer, который возьмёт на себя ключевую роль в проектировании и развитии гибкой и высокопроизводительной платформы для обработки данных.

Наша цель — обеспечить бизнес и продуктовые команды самым современным стеком, который позволит эффективно обрабатывать потоковые и batch-данные, создавать витрины, запускать ML-модели и применять лучшие практики DataOps/MLOps.

Ожидания от кандидата

  • Разработать архитектуру Lakehouse:
    • Определять подходящие инструменты (Iceberg/Delta/Hudi),
    • Проектировать схемы хранения и структуры таблиц под ACID-транзакционность,
    • Встраивать Data Governance и контроль качества.
  • Создавать и поддерживать пайплайны:
    • Интегрировать данные из множества источников (SQL/NoSQL, API, события в Kafka, RabbitMQ),
    • Использовать Spark (PySpark или Scala) для batch- и streaming-обработки,
    • Оркестрировать пайплайны через Airflow.
  • Обеспечивать производительность и отказоустойчивость:
    • Настраивать кластерную инфраструктуру (Docker/Kubernetes) и CI/CD (GitLab/Jenkins/Bitbucket Pipelines),
    • Оптимизировать сложные запросы, Spark-джобы и логику распределённых вычислений.
  • Внедрять и развивать Data Quality:
    • Использовать библиотеки (Great Expectations, dbt tests или аналогичные решения),
    • Автоматизировать мониторинг качества данных и отслеживание метрик.
  • Работать в тесном контакте с другими командами:
    • Аналитики, ML-инженеры, продуктовые команды будут рассчитывать на стабильные витрины и удобный доступ к данным,
    • Участвовать в планировании и внедрении новых сервисов и функций, связанных с обработкой больших данных.
  • Стать одним из ключевых экспертов:
    • Менторить менее опытных коллег,
    • Участвовать в найме и развитии Data Engineering-отдела,
    • Вносить вклад в формирование культуры и стандартов разработки

Наш ожидаемый стек

  • Хранилище: S3-совместимый стор (или распределённое HDFS) + слой Lakehouse (Iceberg/Delta/Hudi).
  • Аналитика и обработка: Spark (PySpark или Scala), SQL (PostgreSQL, ClickHouse), Kafka, Airflow.
  • Инфраструктура: Docker, Kubernetes, Git, CI/CD (Jenkins/GitLab/Bitbucket), мониторинг и логирование (Prometheus, Grafana, ELK).
  • Data Quality: Great Expectations/dbt или подобные инструменты.
  • (Мы открыты к выбору других решений, если вы сможете аргументированно показать их преимущества.)

Наши требования к кандидатам

  • Опыт от 3–4 лет в Data Engineering или разработке высоконагруженных систем.
  • Уверенные знания:
    • Основы распределённых вычислений, Spark (batch/stream),
    • SQL (включая оконные функции, оптимизацию запросов),
    • Kafka или другой брокер сообщений,
    • Docker/K8s, CI/CD-подходы.
  • Понимание Lakehouse-парадигмы или опыт работы с Data Lake + транзакционными слоями (Iceberg, Delta, Hudi) — большой плюс.
  • Коммуникабельность: нужно будет плотно работать с другими командами и презентовать результаты руководству.
  • Английский язык не ниже Intermediate (для чтения документации и возможных внешних метапов).

Условия работы

Уровень дохода обсудим индивидуально — для нас важно найти «своего» человека.

Ваш отклик

Авторизуйтесь
Откликаться на вакансии могут только зарегистрированные пользователи.