Инженер по проектированию высокопроизводительных СХД InfiniBand (NVMe-oF)

Зарплата

от 4000 $

Местоположение и тип занятости

Москва, Алматы (Казахстан)Полный рабочий деньМожно удаленно

Компания

Privacy-focused block explorer and API with a wide range of analytic features

Описание вакансии

О компании и команде

Blockchair — международная компания с командой по всему миру, предоставляющая Data-as-a-Service для компаний, работающих с криптовалютами. Сохраняем дух стартапа с плоской и простой системой принятия решений без корпоративной бюрократии.

Мы разрабатываем высоконагруженную систему хранения и обработки данных для блокчейнов и аналитических задач. Планируется использование InfiniBand, NVMe over Fabrics. В рамках проекта необходимо спроектировать и настроить СХД, соединённую с несколькими (до 15) compute-машинами напрямую или через коммутатор, с учётом всех нюансов RDMA, NUMA, huge pages и IRQ affinity. Выбор аппаратного решения (СХД) — часть задачи. Далее подразумевается поддержка построенного кластера и поддержка уже существующих.

На эту позицию ищем уверенного сениора.

Ожидания от кандидата

Задачи:

  1. Проектирование и дизайн системы хранения
    • Подбор оптимальной аппаратной платформы (СХД) под NVMe over Fabrics, с учётом бюджета и производительности
    • Разработка топологии InfiniBand-сети (с учётом direct-connect или коммутатора)
    • Учёт отказоустойчивости, пропускной способности и масштабирования на перспективу
  2. Настройка и оптимизация
    • Тонкая настройка InfiniBand (RDMA, Subnet Manager, прошивка и драйверы Mellanox ConnectX-8)
    • Тюнинг TCP/IP-стека (RoCE, IPoIB), NUMA, huge pages, IRQ affinity на уровне ядра Linux
    • Использование инструментов (perf, fio, iostat, nvme-cli) для бенчмаркинга и профилирования производительности
  3. Развёртывание и координация
    • Удалённая установка и конфигурирование системы хранения в англоязычном дата-центре
    • Взаимодействие с локальными инженерами (remote hands) при монтаже, подключении и тестировании оборудования
    • Настройка высокопроизводительных связей между compute-узлами и СХД
  4. Интеграция с инфраструктурой
    • Поддержка существующих систем (PostgreSQL, ClickHouse, блокчейны) при переходе на новую СХД
    • Обеспечение непрерывности сервисов и минимизации простоев при миграции данных
    • Контроль за безопасностью и корректностью работы системы
  5. Дальнейшее сопровождение
    • Мониторинг состояния СХД, выявление и устранение «узких мест»
    • Планирование обновлений, масштабирования и резервирования
    • Подготовка документации и обучение внутренней команды

Требования:

  1. Практический опыт с InfiniBand
    • Знание RDMA, Mellanox ConnectX (предпочтительно ConnectX-8), настройки Subnet Manager
    • Умение выбирать и настраивать топологию (direct connect / коммутатор)
  2. NVMe over Fabrics
    • Глубокое понимание протокола NVMe-oF (RoCE, IB-verbs)
    • Опыт развёртывания систем хранения на базе NVMe и их бенчмаркинга (fio, nvme-cli)
  3. Системный тюнинг и оптимизация
    • Уверенные знания в области Linux-тюнинга: NUMA, IRQ affinity, huge pages, RDMA-стек
    • Навыки работы с инструментами (perf, iostat, iperf, sysstat, bpf/eBPF и т.д.)
  4. Аппаратный дизайн и вычислительные кластеры
    • Понимание принципов построения HPC-систем или высоконагруженных кластеров
    • Расчёт пропускной способности, IOPS, латентности; оценка масштабируемости
    • Базовое знание серверного «железа» (процессоры, сетевые карты, дисковые шины, PCIe)
  5. Умение взаимодействовать с дата-центром
    • Опыт работы с remote hands, координация монтажа, подключения оборудования, тестирования
    • Английский язык на уровне, достаточном для общения с инженерами и интеграторами в США
  6. Желательно, но не обязательно
    • Опыт интеграции с PostgreSQL / ClickHouse / другими СУБД на больших объёмах данных
    • Понимание задач HPC — будет плюсом
    • Опыт или интерес к блокчейн-технологиям

Условия работы

  • Свобода выбора: Вы сами подбираете оптимальную аппаратную платформу (без жёсткой привязки к какому-то вендору)
  • Влиятельная роль: Вы определяете стратегию хранения и становитесь ключевым экспертом в компании
  • Работа с продуктом, которым пользуются более 4-х миллионов пользователей и 4-х тысяч компаний в месяц со всего мире
  • Среди клиентов и партнёров компании — крупнейшие игроки отрасли
  • Интернациональная команда
  • Подъёмные и бюрократическое сопровождение в случае релокации для кандидатов из других регионов и стран
  • Бесплатное безлимитное здоровое питание в офисе
  • Ваши разработки могут будут free & open source
  • Гибкий график и отсутствие дресс-кода