Data Engineer (SberDevices)
Требования
Местоположение и тип занятости
Компания
Описание вакансии
О компании и команде
SberDevices ML R&D — подразделение Сбера в составе SberDevices, центр экспертизы по решениям, основанных на искусственном интеллекте и базирующихся на данных различной природы (текст, звук, видео, картинки и другие неструктурированные данные).
Прямо сейчас мы формируем команду спецпроектов в сфере ML, которая будет заниматься исследованиями в области ML/DL и приземлением этих решений в реальные продукты.
В команду исследователей ищем опытных Data Engineer-ов, готовых включиться в нашу команду и создавать новые data-продукты и сервисы вместе с нами!
Мы работаем над такими проектами как GigaChat, Kandinskiy, Jazz by Sber, Голосовые ассистенты Джой/Афина/Сбер и многими другими, где можно применить подходы нейросети и сложные ML-модели.
Чем предстоит заниматься
- Реализация ETL-пайплайнов для задач ML согласно продуктовых требований, автоматизация сбора метрик, покрывающих весь процесс ML-эксперимента
- Сбор и агрегация данных из открытых источников (парсинг, краулинг)
- Участие в разработке фреймворка по интеграции различных источников данных в общий поток сбора асессорской разметки (Яндекс.Толока, TagMe и другие).
- Разработка архитектура хранилища данных (DWH + Data Lake/Data Ocean)
- Участие в проекте централизации данных всего R&D в роли разработчика
- Участие в различных ML-проектах в качестве Data Engineer-а (поставка/обработка данных для обучения ML/DL моделей)
Ожидания от кандидата
- Уверенное знание Python 3
- Опыт работы с распределенными файловыми хранилищами (Hadoop, S3, Google BigQuery, CEPH)
- Знание SQL на продвинутом уровне (DML + DDL, оконные функции, создание ограничений/связей между таблицами и т.д.)
- Опыт работы с Airflow или любым другим оркестратором для ETL
- Понимание разницы между batch и streaming ETL, плюсы и минусы подходов, сценарии использования
- Понимание принципов работы docker, практический опыт – желателен, но не обязателен
- Опыт работы с системами контроля версий (git), инструментами версионирования данных (dvc)
- Понимание принципов организации процесса контроля качества данных (с использованием рыночных решений, либо разработки собственных фреймворков)
Будет плюсом
- Опыт работы в ML-проектах (в качестве Data Engineer-a)
- Опыт работы с NoSQL/MPP базами данных (MongoDB, Redis, GreenPlum, ClickHouse)
- Опыт работы с облаками (Яндекс.Облако, Облако Mail.Ru)
- Опыт развертывания сервисов «с нуля» посредством Docker или из исходников на пустой виртуальной машине
- Опыт построения CI/CD пайплайнов
- Опыт написания Job-ов с использованием Spark, либо других движков распределенных вычислений
Условия работы
- Атмосфера стартапа и надёжность большой компании
- Конкурентая зарплата и хорошие премии
- Работа в команде профессионалов, возможность разрабатывать уникальные и крупные проекты масштаба нашей страны
- Возможность посещения (как в качестве слушателя, так и в качестве выступающего) всероссийских и международных IT-конференций
- Гибкий график, возможна удалёнка, никакого дресс-кода и прочей бюрократической ерунды
- ДМС и различные «плюшки» от нас и наших партнеров.