👀 Бизнес-аналитик, зовем на Публичное собеседование на Хабр Карьере! Для участия нужно → оставить заявку

Разработчик С++ в инференс нейросетей

Местоположение и тип занятости

Москва, Санкт-Петербург, ЕкатеринбургПолный рабочий деньМожно удаленно

Компания

Делаем жизнь 40+ миллионов клиентов проще и удобнее каждый день

Описание вакансии

О компании и команде

Мы развиваем эффективный инференс LLM-моделей и формируем команду, которая займется развитием решения для сервинга больших языковых моделей. В этом году мы планируем запуск большого числа продуктов на основе LLM. Наши пользователи — более 40 миллионов клиентов Тинькофф.

Основной технический вызов — научиться выжимать максимум в генерации токенов в секунду с одной GPU при должном уровне качества. И делать это максимально эффективно с точки зрения потребления вычислительных ресурсов.

Вам и команде предстоит оптимизировать распределенный инференс и решать инфровые проблемы — такие как скорость обновления моделей на продакшене, размер которых может достигать сотен гигабайт.

Примеры задач, в которых предстоит разбираться, в формате PDF:  PagedAttentionFastServeS-LORA.

Будет много интересных задач и челленджей: RPS, требования по отказоустойчивости и производительности. У нас вы сможете научиться реализовывать все нужные подходы в собственном решении и придумывать свои.

Обязанности

  • Проектировать и разрабатывать сервинг для LLM-моделей
  • Плотно работать с ML-инженерами при внедрении SOTA-моделей и оптимизации инференса
  • Искать, оценивать и внедрять лучшие практики с развивающегося в этом направлении рынка
  • Заниматься исследовательской разработкой: от paper до релиза в продакшен
  • Вникать в архитектуру нейросетей, которые выбирают ML-специалисты
  • Взаимодействовать с инфраструктурными командами

Ожидания от кандидата

  • Хорошо знаете С/С++
  • Есть опыт разработки на Python, готовы попробовать Go
  • Обладаете навыками параллельной и многопоточной разработки на CUDA
  • Есть опыт разработки бэкендов под *nix
  • Будет плюсом опыт написания extensions к Triton Inference Server

Условия работы

  • Работу в офисе или удаленно — по договоренности
  • Профессиональное развитие. Вы получите доступ к библиотеке с технической литературой, тренингам и мастер-классам для сотрудников
  • Заботу о здоровье. Оформим полис ДМС со стоматологией и страховку от несчастных случаев. Предложим льготное страхование вашим близким
  • Бесплатный фитнес-зал или компенсацию затрат на спортивные занятия
  • Возможность работать в аккредитованной ИТ-компании