Инженер по доступности сервисов (Средний) • Site Reliability Engineer
Июль 2023 — По настоящее время (2 года и 10 месяцев)
сетап новых хостов, добавление дисков в LVM, обновление конфигураций, тюнинг ОС под специфические нужды - backend-сервисы и high-load блокчейн-ноды, добавление и удаление хостов из кластеров Nomad+Consul+Vault (всё посредством Ansible)
настройка систем мониторинга и алертинга blackbox/whitebox (Prometheus, Alertmanager, Grafana, Betterstack)
темплейтинг сервисов посредством nomad-pack, исправление ошибок и дополнение существующих паков
написание постмортемов по заветам Google, полное сопровождение инцидентов
трекинг работы в Jira и документирование в Confluence
ресёрчи по развертыванию новых сервисов в кластере: теоретическая возможность запуска, требования к железу, запуск в тестовой среде
нагрузочное, функциональное и smoke-тестирование (кастомные скрипты ethers.js и подобные, Grafana K6 скрипты)
AI-assisted написание внутренних сервисов - xDS серверы Envoy, сервисы управления пирингом нод и т. п. - Go, Rust
интеграция, написание и оптимизация пайплайнов GitLab CI/CD
полное сопровождение всех операций с нодами: запуск, настройка, траблшутинг, миграции и т. д.