Инженер по проектированию высокопроизводительных СХД InfiniBand (NVMe-oF)
Зарплата
Требования
Местоположение и тип занятости
Компания
Описание вакансии
О компании и команде
Blockchair — международная компания с командой по всему миру, предоставляющая Data-as-a-Service для компаний, работающих с криптовалютами. Сохраняем дух стартапа с плоской и простой системой принятия решений без корпоративной бюрократии.
Мы разрабатываем высоконагруженную систему хранения и обработки данных для блокчейнов и аналитических задач. Планируется использование InfiniBand, NVMe over Fabrics. В рамках проекта необходимо спроектировать и настроить СХД, соединённую с несколькими (до 15) compute-машинами напрямую или через коммутатор, с учётом всех нюансов RDMA, NUMA, huge pages и IRQ affinity. Выбор аппаратного решения (СХД) — часть задачи. Далее подразумевается поддержка построенного кластера и поддержка уже существующих.
На эту позицию ищем уверенного сениора.
Ожидания от кандидата
Задачи:
- Проектирование и дизайн системы хранения
- Подбор оптимальной аппаратной платформы (СХД) под NVMe over Fabrics, с учётом бюджета и производительности
- Разработка топологии InfiniBand-сети (с учётом direct-connect или коммутатора)
- Учёт отказоустойчивости, пропускной способности и масштабирования на перспективу
- Настройка и оптимизация
- Тонкая настройка InfiniBand (RDMA, Subnet Manager, прошивка и драйверы Mellanox ConnectX-8)
- Тюнинг TCP/IP-стека (RoCE, IPoIB), NUMA, huge pages, IRQ affinity на уровне ядра Linux
- Использование инструментов (perf, fio, iostat, nvme-cli) для бенчмаркинга и профилирования производительности
- Развёртывание и координация
- Удалённая установка и конфигурирование системы хранения в англоязычном дата-центре
- Взаимодействие с локальными инженерами (remote hands) при монтаже, подключении и тестировании оборудования
- Настройка высокопроизводительных связей между compute-узлами и СХД
- Интеграция с инфраструктурой
- Поддержка существующих систем (PostgreSQL, ClickHouse, блокчейны) при переходе на новую СХД
- Обеспечение непрерывности сервисов и минимизации простоев при миграции данных
- Контроль за безопасностью и корректностью работы системы
- Дальнейшее сопровождение
- Мониторинг состояния СХД, выявление и устранение «узких мест»
- Планирование обновлений, масштабирования и резервирования
- Подготовка документации и обучение внутренней команды
Требования:
- Практический опыт с InfiniBand
- Знание RDMA, Mellanox ConnectX (предпочтительно ConnectX-8), настройки Subnet Manager
- Умение выбирать и настраивать топологию (direct connect / коммутатор)
- NVMe over Fabrics
- Глубокое понимание протокола NVMe-oF (RoCE, IB-verbs)
- Опыт развёртывания систем хранения на базе NVMe и их бенчмаркинга (fio, nvme-cli)
- Системный тюнинг и оптимизация
- Уверенные знания в области Linux-тюнинга: NUMA, IRQ affinity, huge pages, RDMA-стек
- Навыки работы с инструментами (perf, iostat, iperf, sysstat, bpf/eBPF и т.д.)
- Аппаратный дизайн и вычислительные кластеры
- Понимание принципов построения HPC-систем или высоконагруженных кластеров
- Расчёт пропускной способности, IOPS, латентности; оценка масштабируемости
- Базовое знание серверного «железа» (процессоры, сетевые карты, дисковые шины, PCIe)
- Умение взаимодействовать с дата-центром
- Опыт работы с remote hands, координация монтажа, подключения оборудования, тестирования
- Английский язык на уровне, достаточном для общения с инженерами и интеграторами в США
- Желательно, но не обязательно
- Опыт интеграции с PostgreSQL / ClickHouse / другими СУБД на больших объёмах данных
- Понимание задач HPC — будет плюсом
- Опыт или интерес к блокчейн-технологиям
Условия работы
- Свобода выбора: Вы сами подбираете оптимальную аппаратную платформу (без жёсткой привязки к какому-то вендору)
- Влиятельная роль: Вы определяете стратегию хранения и становитесь ключевым экспертом в компании
- Работа с продуктом, которым пользуются более 4-х миллионов пользователей и 4-х тысяч компаний в месяц со всего мире
- Среди клиентов и партнёров компании — крупнейшие игроки отрасли
- Интернациональная команда
- Подъёмные и бюрократическое сопровождение в случае релокации для кандидатов из других регионов и стран
- Бесплатное безлимитное здоровое питание в офисе
- Ваши разработки могут будут free & open source
- Гибкий график и отсутствие дресс-кода