Инженер данных
Требования
Местоположение и тип занятости
Компания
Мы строим DIY будущего
Описание вакансии
О компании и команде
- Поддержка настроенной интеграции данных Google Analytics и FireBase в DataLake (Greenplum);
- Разрабатывать схемы подключения новых источников в DataLake;
- Принимать участие в архитектурных решениях;
- Разрабатывать процедуры формирования детального слоя данных и слоя витрин DataLake;
- Создавать и улучшать процессы обработки данных;
- Реализовывать процессы CI/CD и мониторинга разработанных процессов обработки данных (Grafana, Prometheus);
- Создание manual и automated DQ тестов;
- Документирование работы в Confluence.
Ожидания от кандидата
- Понимание принципа работы MPP баз данных (в частности Greenplum);
- SQL с навыком оптимизации запросов (чтение плана, оценка, оптимизация);
- Apache Spark - хотя бы понимание что это и для чего используется. В нашем случае актуален pyspark, но если был опыт со scala + spark, то это ок;
- S3, хотя бы понимание что это и для чего;
- Airflow, понимание на хорошем уровне (как писать даги, архитектура, best practice);
- Понимание CI/CD, большой плюс, если есть опыт настройки процессов;
- Опыт работы с системами контроля версий (Git);
- Data Quality, хотя бы понимание зачем это надо.
Условия работы
- работу в компании с развитой инженерной культурой;
- гибкую систему премирования;
- расширенный социальный пакет: ДМС со стоматологией с первого месяца работы, психолог и страхование жизни, компенсация питания и оплата мобильной связи;
- возможности профессионального роста, программы развития для сотрудников;
- корпоративное обучение и доступ к базе знаний;
- внутренние профессиональные сообщества и мероприятия;
- автономность работы, возможность менять правила, ошибаться и создавать новое;
- гибридный формат работы;
- современный офис в 2 минутах ходьбы от МЦК ЗИЛ.