💥 Ищем дата-инженера для участия в Публичном собеседовании на Хабр Карьере. Оставить заявку можно здесь → Участвую!

Site Reliability Engineer (SRE)

Местоположение и тип занятости

МоскваПолный рабочий деньМожно удаленно

Компания

Создаем решения для крупнейшей e-commеrce компании в России — ВсеИнструменты.ру

Описание вакансии

О компании и команде

ВсеИнструменты.ру - это одна из крупнейших e-commerce компаний в России, лидер продаж строительных инструментов и оборудования. 16 лет на рынке, более 12 млн. посетителей в месяц, самая широкая розничная сеть в категории DIY.

- 5-е место в рейтинге лучших работодателей на Хабр Карьера за 2020 год;

- ТОП 20 рейтинга лучших работодателей России по результатам рейтинга hh.ru за 2021 год.

В нашем IT отделе более 300 человек, новые технологии и постоянно развивающиеся, высоконагруженные проекты, как монолиты так и микросервисы.

Наш стек:

  • Golang, PHP, Javascript, немного Python и Jsonnet;
  • Kubernetes для оркестрации контейнеризированных приложений, Ubuntu, CentOS для вм/bare metal;
  • Mysql Percona XtraDB Cluster + proxysql, Postgresql + patroni, mongodb, Elasticsearch, Clickhouse, Redis;
  • Confluent Kafka + Confluent Schema Registry;
  • Ansible, Ansible molecule, Terraform, Docker, Helm, Werf, Gitlab, Gitlab CI;
  • Prometheus, VictoriaMetrics, Grafana, NewRelic, vector.dev, Sentry.

Наш продукт:

  • Более 427000 пайплайнов в месяц;
  • До 91 нод в одном кластере k8s;
  • До 2192 подов в одном кластере k8s;
  • Deckhouse, ванильный kubernetes

Сейчас мы ищем Site Reliability Engineer в нашу команду

Наши задачи:

  • Управление инцидентами:
  • поддержка и развитие процесса реакции на инциденты
  • управление пост-инцидентным процессом
  • контроль выполнение пост-инцидентного процесса
  • дежурство
  • Управление целевыми показателями уровня обслуживания:
  • внедрение целевых уровней качества обслуживания (SLO)
  • контроль соблюдения SLO
  • выполнение мероприятий по обслуживанию SLO
  • выработка оповещений на основе SLO
  • Эксплуатация созданных информационных систем:
  • управление конвеером доставки приложения
  • управление продуктовыми мощностями
  • отказоустойчивость
  • масштабируемость
  • дебаг и траблшутинг прода
  • реагирование на инциденты
  • разработка инструкций
  • Обслуживание документации:
  • написание документации к процессам
  • написание документации к инструментам/приложениям, вводимых в эксплуатацию или уже находящихся в эксплуатации
  • выполнение работ по повышению качества документации
  • автоматизация работы с документацией

Ожидания от кандидата

  • Опыт работы в аналогичной должности от 2-ух лет;
  • Технический английский, умение читать и использовать документацию;
  • Понимание работы k8s, умение доставлять приложения в k8s
  • Опыт использования Ansible + Ansible Molecule для конфигурации виртуальных машин

Опыт работы с:

  • IaC с использованием terraform + terratest
  • Gitlab Ci/CD pipelines
  • Prometheus, grafana.
  • SLI, SLO, SLA. Бюджет ошибок
  • Паттерны высокой доступности

Будет плюсом:

  • Опыт разработки приложений/скриптов на golang/php/python;
  • Vector.dev, kafka, clickhouse, zookeeper
  • Victoria metrics, jaeger
  • Jsonnet

Условия работы

  • Возможность удаленной работы на масштабных задачах с самыми новыми инструментами и решениями;
  • Система грейдов, индивидуальные планы развития, митапы, конференции, обучение в корпоративном университете, MBA;
  • Дружелюбная атмосфера и открытость к новому. Здесь каждый может предложить свою идею и сформировать команду для реализации;
  • Полностью белая заработная плата, также есть корпоративный ДМС и компенсация спорта 70% на годовой абонемент.