Data engineer
Требования
Местоположение и тип занятости
Компания
Описание вакансии
Условия работы
СГ«АльфаСтрахование», компания №1 в сфере машинного обучения и Big Data на рынке страхования, ищет -Data engineer в команду Машинного обучения и работы с данными.
Команда занимается задачами в области больших данных: обогащением данных профиля клиента, извлечением ценной информации из имеющихся данных в различных аспектах бизнеса, начиная от формирования наиболее оптимального приложения для клиента и заканчивая защитой бизнеса от мошенников с применением моделей машинного обучения.
Является ответственной за Hadoop-стек в компании, строит современный Feature Store и развивает платформу машинного обучения, совершенствует текущую систему хранения и управления данными.
Наш текущий стек: Python, Hadoop, Hive, Pyspark + Airflow, Feast, Kafka, NiFi, Gitlab, Jira/Confluence, Docker, Grafana, командная коммуникация - Slack;
Кандидату, успешно прошедшему собеседование, предстоит:
- Заниматься разработкой новых data-пайплайнов с использованием Pyspark, Airflow.
- Готовить витрины данных, в том числе из сырых логов.
Ключевая функция - Обеспечение качества и непрерывности поставки данных. Трансформация данных.
Бонусы
Мы предлагаем:
- Работу в профессиональной команде, которая готова делиться знаниями и опытом;
- Прозрачную систему грейдов , возможность внешнего обучения и прокачки твоих скиллов за счет Компании;
- Заботу о сотрудниках: возможность прохождения медицинских chek-апов, безлимитные бесплатные консультации с финансовыми консультантами, юристами и психологом. В компании поддерживается и развивается культура ЗОЖ;
- Отличный социальный пакет, включающий ДМС, скидки на страховые продукты компании, скидки от наших партнеров (туризм, фитнес и т.д.);
- Обеспечение техникой для работы (предлагаются варианты на выбор, также можно предложить свой);
- График работы возможен на полной удаленке (гибкое начало дня с 8 до 10);
- Офис в 5 минутах от станции метро Шаболовская;
- Корпоративные программы от партнеров компании – банки, автосалоны, фитнес, изучение иностранных языков;
- Внутрикорпоративное и внешнее обучение.
Дополнительные инструкции
Критерии успеха:
1. Уверенный Python и хорошие базовые знания SQL (JOIN, подзапросы)
2. Базовые знания стека Hadoop (HDFS, YARN, Hive) и Pyspark
3. Понимание принципов построения data-пайплайнов (kappa И lambda - архитектуры)
4. Знакомство с Kafka и Airflow, понимание их роли в data-пайплайне
5. Знание базовых команд Linux-консоли, git
6. Интерес к технологиям больших данных и большое желание учиться
Будет плюсом:
1. Знакомство с системами контейнеризации и виртуализации Linux (Docker, Kubernetes)
2. Опыт разработки REST-сервисов на Python (Flask / FastAPI)