Site Reliability Engineer (SRE)

12 апреля

Требования

Инженер по доступности сервисов, Старший (Senior) • Kubernetes • Python • Terraform • GitLab

Местоположение и тип занятости

Москва • Полный рабочий день • Можно удаленно

Компания

Звук

Аудиосервис, который сопровождает тебя в течение всего дня

Описание вакансии

О компании и команде

Звук — это команда из 750+ экспертов, работающих друг с другом в такт. То, что мы сделали вчера, сегодня уже в продакшене, а завтра этим будут пользоваться миллионы.

Создаем аудиостриминг c музыкой в HiFi-качестве, подкастами, аудиокнигами, эксклюзивными плейлистами и разделом для детей. Только представь: утренние медитации на колонке, любимые треки в машине по дороге в офис, плейлист на вебе для концентрации, пока делаешь слайды, а вечером — новый выпуск подкаста на прогулке с собакой прямо в телефоне. И все это — со Звуком!

Ожидания от кандидата

Мы ищем того, кто готов решать сложные задачи, погружаться в детали, быть хранителем стабильности и надежности наших сервисов. Если ты считаешь, что совершенство — это не цель, а путь, готов предлагать новые решения и внедрять передовые технологии, мы будем рады видеть тебя в нашей команде.

Почему это важно

Наша главная цель — поддерживать такие условия, при которых пользователи могут наслаждаться стабильностью и надежностью наших сервисов, открывая для себя новые горизонты звука.

Чем будешь заниматься у нас:

Внедрять системы мониторинга с использованием Jaeger, Prometheus, Grafana и ELK.
Настраивать сетевые политики в istio и правила деплоя.
Работать с облачными сервисами (IaaS, PaaS, SaaS).
Внедрять контроль за SLO и SLA, приоритизировать задачи разработки.
Проводить хаос-тестирования.
Создавать процесс реагирования и восстановления после сбоев.
Автоматизировать процесс инцидент-менеджмента, рутинные задачи, создавать ботов для отчетности с использованием Go или Python

Технологии, с которыми будешь работать

Kubernetes: Управление кластером, обеспечение отказоустойчивости, сетевые политики, правила деплоя сервисов, масштабируемость.
Istio service mesh: Мониторинг SLI приложений, настройка сетевых настроек, таймауты, балансировка трафика, наблюдаемость.
Helm/Flux: Деплой продуктовых сервисов с помощью универсального helm чарта, а control-plane и monitoring с помощью flux.
Внутренние инструменты: Контроль SLA партнеров, бот контроля жизненного цикла инцидентов, сервис для поиска первопричины инцидентов с AI.
GitLab CI/CD: Внедрение паттернов отказоустойчивости, управление канареечными релизами, ускорение MTTR - среднее время до восстановления.
Jaeger: Наблюдаемость через метрики и трейсинг, поиск проблемных мест в производительности и инцидентах.
Prometheus/Grafana: Сбор метрик, мониторинг, настройка систем мониторинга.
ELK: Поиск аномалий в логах, анализ метрик из логов на дашбордах, внутренние экспортеры данных.
Go/Python: автоматизация задач, связанных с инцидент-менеджментом, отчетностью и т.п.
Cloud: IaaS, PaaS, SaaS: виртуальные машины, базы данных, кэширующие серверы, брокеры сообщений.

Успех в этой роли обеспечат:

Инцидент менеджмент - основное в работе SRE это настроить систему так, чтобы быстро реагировать на сбои, как можно быстрее их устранять и прорабатывать, исключая повторение в будущем. Внедрять автоматизацию, которая уменьшит время реакции и восстановления.
У тебя есть опыт работы со Kubernetes - ты знаешь зачем нужны основные типы ресурсов, что такое CRD и чем отличается от CR, чем являются операторы, а еще зачем может быть нужен preStop hook с sleep.
Идеология SRE - внедрение контроля за SLO и SLA, а также приоритизация задач разработки в связи с Error budget - это основные метрики, которые развивает и поддерживает SRE.
Хаос тестирование - тестировать систему preprod идентичную prod по трафику и конфигурации, имитируя инциденты, которые уже были проработаны или инструментами chaos тестирования.
Инструкции реагирования и планы восстановления - не менее важная часть в работе над инцидентами, правильная реакция на сбои уменьшает MTTR - среднее время до восстановления.

Условия работы

Становимся лучшими версиями себя

отправляем на конференции и профессионально коучим спикеров
организовываем обучение под ключ
растим своих менторов
развиваем внутренние коммьюнити:
от бегунов до КВНщиков

Знаем, как оставаться в ресурсе и в потоке

оформляем фуллхаус ДМС с первого дня: с ежегодными чекапами, полисом путешественника и ведением беременности. И даже ДМС для питомцев!
100% компенсируем больничный до 15 календарных дней в год
оплачиваем сессии с психологами «Ясно»
предоставляем 6 дополнительных days off в год
треним в офисном спортзале и компенсируем затраты на спорт

Создаем только комфортные вайбы

работаем в стильных офисах у м. Кутузовская
поддерживаем гибкий формат работы и начала рабочего дня
обеспечиваем преимущества работы в аккредитованной IT‑компании
каждого нового сотрудника сопровождаем поддержкой бадди для быстрой и комфортной адаптации
вручаем подарки на годовщины и одеваем в стилевый мерч
устраиваем свои мощные тусовки и дарим проходки на концерты артистов