Инженер доступности сервисов / Site Reliability Engineer (SRE)

Местоположение и тип занятости

Полный рабочий деньМожно удаленно

Компания

Описание вакансии

О компании и команде

Миссия команды Observability - обеспечить наблюдаемость и прозрачность работы всех приложений и процессов компании, предоставляя командам оптимальные инструменты и экспертизу.
Команда работает в 3 направлениях: инженерное, аналитически-процессное и прикладное, которое покрывает работу над инструментами для команд разработки (Slack, Jira и т.п).

Ожидания от кандидата

  • Понимание принципов работы систем мониторинга и алертинга, метрик и time series, построения графиков и т.д.;
  • Понимание практик SRE, в том числе критерии доступности - SLO, SLI, SLA
  • Опыт администрирования Linux (CentOS, Ubuntu), баз данных и работы с сетевым стеком (HTTP, TCP/IP, DNS, REST API);
  • Опыт работы с системами виртуализации и контейнеризации;
  • Опыт работы с Kubernetes, организации его мониторинга и владение Helm;
  • Владение любым языком: Bash, Python, Go, Groovy и т.д.;
  • Уверенное владение английским языком (мы плотно взаимодействуем с зарубежными коллегами).

    Условия работы

    Мы предлагаем:

    • Работу в компании с развитой инженерной культурой;
    • гибкую систему премирования;
    • расширенный социальный пакет: ДМС со стоматологией с первого месяца работы, психолога и страхование жизни, компенсацию питания и оплата мобильной связи;
    • автономность работы, возможность менять правила, ошибаться и создавать новое;
    • возможности профессионального роста, программы развития для сотрудников;
    • корпоративное обучение и доступ к базе знаний;
    • внутренние профессиональные сообщества и мероприятия;
    • гибридный формат работы или полностью удаленная работа;
    • современный офис в 2 минутах ходьбы от МЦК ЗИЛ.

    С каждым годом, на выбор сотрудника становится доступно больше дополнительных опций. Например, частичная компенсация путешествий, затрат на обучение, спортивных заняти

    Бонусы


    Дополнительные инструкции

    Будет плюсом: 

    • Понимание паттернов обеспечения отказоустойчивости - load balancing, circuit breakers, disaster recovery;
    • Опыт работы с Яндекс.Облаком и Terraform;
    • Опыт построения long-term хранилища метрик на базе VictoriaMetrics/Thanos/Cortex/Grafana Mimir будет большим плюсом;
    • Опыт внедрения трассировки (tracing) на базе OpenTelemetry будет большим плюсом;
    • Опыт построения HA реализаций мониторинга на базе Prometheus stack;
    • Умение работать с Git, Ansible/Salt, JSON, YAML и опыт написания CI/CD пайплайнов;
    • Понимание методологии DevOps и опыт взаимодействия с Agile командами разработки.