💜 Подарок для новых пользователей Хабр Карьеры — месяц бесплатного кино и скидка 10% на подписку от онлайн-кинотеатра START → зарегистрироваться

Data Scientist (NLP) StartUp

Местоположение и тип занятости

Санкт-ПетербургНеполный рабочий деньМожно удаленно

Компания

Разработка научных IT сервисов

Описание вакансии

О компании и команде

Наша компания (стартап) посвящена созданию удобной и доступной среды для ученых. Мы создаем экосистему сервисов для поиска единомышленников в научной среде и обмену знаний.

Проектам стартапа 2 года и за это время были достигнуты большие высоты: собрано сообщество ученых суммарно более 20 000 человек, получено три всероссийских гранта на реализацию проектов, планируется включение в резидентство Сколково. 

Наши текущие проекты:

SciArticle (https://www.sciarticle.ru/) (релиз в мае 2024 г.) - разрабатываемая цифровая площадка в формате социальной сети, ориентированная на размещение научных трудов и новостях о науке. Платформа разрабатывается как адаптивная площадка для внедрения цифровых решений, направленных на упрощение и улучшение классических способов получения, обмена и коммерциализации научных знаний. Платформа обладает уникальным преимуществом - встроенным ИИ, благодаря чему для ученых облегчается трудоемкий процесс заполнения метаданных публикуемых исследований. @SciArticleBot, @SciArticleChat, @SciArticleChannel

SciCite (https://www.scicite.com/) (запущен в январе 2024 г.) - площадка (beta) в виде веб-приложения, позволяющая повысить охваты работ ученых за счет индексации в интернете и использования маркетингового подхода к продвижению. На площадке ученые могут в удобном и актуальном формате опубликовать свои исследования, найти коллег, а также выделить статьи, которые станут базой для будущих исследований. @scicitebot

SciBiz. API на основе NLP-модели для формирования кратких описания научных статей и распределения их областей исследований с целью создания связующей компетентной среды для предприятий deeptech и научно-образовательных учреждений. API предлагает возможности формирования литературных обзоров и поиска связей между ключевыми выводами и гипотезами. На базе данного API создается потенциал для формирования различных инструментов для научного сообщества, а также возможности интеграции в публикационные интеграторы и журналы. Модель может быть адаптирована согласно требованиям целевой аудитории и степени упрощения смысловых конструкций, что делает возможность производить интеграцию в широкий спектр индустрий.

Наша команда состоит из молодых ученых, имеющих практические навыки в таких сферах, как IT, наука, ИИ, юридическое дело, финансы, маркетинг и аналитика. За счет структурирования задач и постоянного взаимодействия, обмена мнениями и навыков, мы добиваемся максимальной эффективности в достижении целей проекта и развитии личных скиллов.

Ожидания от кандидата

  • Желательны знания LLM (SFT, prompt-tuning, RLHF, quantization, LoRA)
  • Знание развертывания моделей в продакшн
  • PyTorch, transformers, peft, trl, bitsandbytes 

Условия работы

  • Требуется стажер на конкретный проект. Срок реализации - 3 месяца. График работы организован спринтами. Занятость 2-3 часа в день. 

Дополнительные инструкции

  • Перед принятием в команду выдается небольшое тестовое задание.
  • Срок стажировки - от 1 до 3 месяцев (в зависимости от уровня), после стажировки есть возможность трудоустройства.