Описание вакансии
Ищем сильного Senior LLM Engineer, который умеет проектировать масштабируемые LLM/ML‑пайплайны под речевую аналитику end‑to‑end: от ASR до извлечения событий/инсайтов, с контролем качества и себестоимости. Масштаб: десятки тысяч звонков в день.
Важно: роль hands‑on, с ответственностью за метрики качества/стоимости в проде, а не только за текст промптов.
Что нужно уметь:
1) Проектировать пайплайн: разделение на этапы пайплайна и интерфейсы между ними (контракты вход/выход, форматы, версии); чёткое разделение детерминированных шагов и LLM‑вычислений; построение каскадов критериев и гейтов (быстрые дешёвые проверки → LLM только когда нужно); воспроизводимость (конфиги, версии, трассировка).
2) Доводить качество: эталонный датасет, автоматические evals и регрессионные тесты; работа с precision/recall (FN/FP), разбор ошибок “по корзинам”; системные итерации промптов/декомпозиции до целевых метрик; удержание баланса точность/стоимость/скорость (в т.ч. через ограничение контекста и число вызовов).
3) Работать с High‑stakes сценариями: пороги и подтверждения, fail‑safe поведение, human‑in‑the‑loop, логирование и аудит (трассировка входов/выходов/версий), контроль рисков и регрессий.
Ожидаем: уверенный Python + опыт интеграции LLM в прод (API, очереди, логи). Плюсом будет: RAG и tool‑calling, опыт продакшн‑мониторинга качества и стоимости.
Результат работы:
- Design doc пайплайна + интерфейсы/контракты между этапами
- Промпты + Eval + golden set + регрессионные тесты
- Мониторинг качества/стоимости в проде (дашборды/алерты/разбор инцидентов)
Для кандидатов предусмотрен оплачиваемый этап с 2 тестовыми заданиями не больше 3-4 часов суммарно: 1 архитектурное, 1 hands on
