Инженер доступности сервисов / Site Reliability Engineer (SRE)
Требования
Местоположение и тип занятости
Компания
Мы строим DIY будущего
Описание вакансии
О компании и команде
Миссия команды Observability - обеспечить наблюдаемость и прозрачность работы всех приложений и процессов компании, предоставляя командам оптимальные инструменты и экспертизу.
Команда работает в 3 направлениях: инженерное, аналитически-процессное и прикладное, которое покрывает работу над инструментами для команд разработки (Slack, Jira и т.п).
Ожидания от кандидата
- Понимание принципов работы систем мониторинга и алертинга, метрик и time series, построения графиков и т.д.;
- Понимание практик SRE, в том числе критерии доступности - SLO, SLI, SLA
- Опыт администрирования Linux (CentOS, Ubuntu), баз данных и работы с сетевым стеком (HTTP, TCP/IP, DNS, REST API);
- Опыт работы с системами виртуализации и контейнеризации;
- Опыт работы с Kubernetes, организации его мониторинга и владение Helm;
- Владение любым языком: Bash, Python, Go, Groovy и т.д.;
- Уверенное владение английским языком (мы плотно взаимодействуем с зарубежными коллегами).
Условия работы
Мы предлагаем:
- Работу в компании с развитой инженерной культурой;
- гибкую систему премирования;
- расширенный социальный пакет: ДМС со стоматологией с первого месяца работы, психолога и страхование жизни, компенсацию питания и оплата мобильной связи;
- автономность работы, возможность менять правила, ошибаться и создавать новое;
- возможности профессионального роста, программы развития для сотрудников;
- корпоративное обучение и доступ к базе знаний;
- внутренние профессиональные сообщества и мероприятия;
- гибридный формат работы или полностью удаленная работа;
- современный офис в 2 минутах ходьбы от МЦК ЗИЛ.
С каждым годом, на выбор сотрудника становится доступно больше дополнительных опций. Например, частичная компенсация путешествий, затрат на обучение, спортивных заняти
Бонусы
Дополнительные инструкции
Будет плюсом:
- Понимание паттернов обеспечения отказоустойчивости - load balancing, circuit breakers, disaster recovery;
- Опыт работы с Яндекс.Облаком и Terraform;
- Опыт построения long-term хранилища метрик на базе VictoriaMetrics/Thanos/Cortex/Grafana Mimir будет большим плюсом;
- Опыт внедрения трассировки (tracing) на базе OpenTelemetry будет большим плюсом;
- Опыт построения HA реализаций мониторинга на базе Prometheus stack;
- Умение работать с Git, Ansible/Salt, JSON, YAML и опыт написания CI/CD пайплайнов;
- Понимание методологии DevOps и опыт взаимодействия с Agile командами разработки.