💥 Ищем дата-инженера для участия в Публичном собеседовании на Хабр Карьере. Оставить заявку можно здесь → Участвую!

Data Engineer (SberDevices)

Местоположение и тип занятости

Можно удаленно

Компания

Крупнейшая цифровая платформа. Технобренд, объединяющий лучшие мировые практики и самый современный стек

Описание вакансии

О компании и команде

SberDevices ML R&D — подразделение Сбера в составе SberDevices, центр экспертизы по решениям, основанных на искусственном интеллекте и базирующихся на данных различной природы (текст, звук, видео, картинки и другие неструктурированные данные).

Прямо сейчас мы формируем команду спецпроектов в сфере ML, которая будет заниматься исследованиями в области ML/DL и приземлением этих решений в реальные продукты.

В команду исследователей ищем опытных Data Engineer-ов, готовых включиться в нашу команду и создавать новые data-продукты и сервисы вместе с нами!

Мы работаем над такими проектами как GigaChat, Kandinskiy, Jazz by Sber, Голосовые ассистенты Джой/Афина/Сбер и многими другими, где можно применить подходы нейросети и сложные ML-модели.

Чем предстоит заниматься

  • Реализация ETL-пайплайнов для задач ML согласно продуктовых требований, автоматизация сбора метрик, покрывающих весь процесс ML-эксперимента
  • Сбор и агрегация данных из открытых источников (парсинг, краулинг)
  • Участие в разработке фреймворка по интеграции различных источников данных в общий поток сбора асессорской разметки (Яндекс.Толока, TagMe и другие).
  • Разработка архитектура хранилища данных (DWH + Data Lake/Data Ocean)
  • Участие в проекте централизации данных всего R&D в роли разработчика
  • Участие в различных ML-проектах в качестве Data Engineer-а (поставка/обработка данных для обучения ML/DL моделей)

Ожидания от кандидата

  • Уверенное знание Python 3
  • Опыт работы с распределенными файловыми хранилищами (Hadoop, S3, Google BigQuery, CEPH)
  • Знание SQL на продвинутом уровне (DML + DDL, оконные функции, создание ограничений/связей между таблицами и т.д.)
  • Опыт работы с Airflow или любым другим оркестратором для ETL
  • Понимание разницы между batch и streaming ETL, плюсы и минусы подходов, сценарии использования
  • Понимание принципов работы docker, практический опыт – желателен, но не обязателен
  • Опыт работы с системами контроля версий (git), инструментами версионирования данных (dvc)
  • Понимание принципов организации процесса контроля качества данных (с использованием рыночных решений, либо разработки собственных фреймворков)

Будет плюсом 

  • Опыт работы в ML-проектах (в качестве Data Engineer-a)
  • Опыт работы с NoSQL/MPP базами данных (MongoDB, Redis, GreenPlum, ClickHouse)
  • Опыт работы с облаками (Яндекс.Облако, Облако Mail.Ru)
  • Опыт развертывания сервисов «с нуля» посредством Docker или из исходников на пустой виртуальной машине
  • Опыт построения CI/CD пайплайнов
  • Опыт написания Job-ов с использованием Spark, либо других движков распределенных вычислений



Условия работы

  • Атмосфера стартапа и надёжность большой компании
  • Конкурентая зарплата и хорошие премии
  • Работа в команде профессионалов, возможность разрабатывать уникальные и крупные проекты масштаба нашей страны
  • Возможность посещения (как в качестве слушателя, так и в качестве выступающего) всероссийских и международных IT-конференций
  • Гибкий график, возможна удалёнка, никакого дресс-кода и прочей бюрократической ерунды
  • ДМС и различные «плюшки» от нас и наших партнеров.

Смотреть ещё вакансии