Site Reliability Engineer (SRE)
Требования
Местоположение и тип занятости
Компания
Создаем решения для крупнейшей e-commеrce компании в России — ВсеИнструменты.ру
Описание вакансии
О компании и команде
ВсеИнструменты.ру - это одна из крупнейших e-commerce компаний в России, лидер продаж строительных инструментов и оборудования. 16 лет на рынке, более 12 млн. посетителей в месяц, самая широкая розничная сеть в категории DIY.
- 5-е место в рейтинге лучших работодателей на Хабр Карьера за 2020 год;
- ТОП 20 рейтинга лучших работодателей России по результатам рейтинга hh.ru за 2021 год.
В нашем IT отделе более 300 человек, новые технологии и постоянно развивающиеся, высоконагруженные проекты, как монолиты так и микросервисы.
Наш стек:
- Golang, PHP, Javascript, немного Python и Jsonnet;
- Kubernetes для оркестрации контейнеризированных приложений, Ubuntu, CentOS для вм/bare metal;
- Mysql Percona XtraDB Cluster + proxysql, Postgresql + patroni, mongodb, Elasticsearch, Clickhouse, Redis;
- Confluent Kafka + Confluent Schema Registry;
- Ansible, Ansible molecule, Terraform, Docker, Helm, Werf, Gitlab, Gitlab CI;
- Prometheus, VictoriaMetrics, Grafana, NewRelic, vector.dev, Sentry.
Наш продукт:
- Более 427000 пайплайнов в месяц;
- До 91 нод в одном кластере k8s;
- До 2192 подов в одном кластере k8s;
- Deckhouse, ванильный kubernetes
Сейчас мы ищем Site Reliability Engineer в нашу команду
Наши задачи:
- Управление инцидентами:
- поддержка и развитие процесса реакции на инциденты
- управление пост-инцидентным процессом
- контроль выполнение пост-инцидентного процесса
- дежурство
- Управление целевыми показателями уровня обслуживания:
- внедрение целевых уровней качества обслуживания (SLO)
- контроль соблюдения SLO
- выполнение мероприятий по обслуживанию SLO
- выработка оповещений на основе SLO
- Эксплуатация созданных информационных систем:
- управление конвеером доставки приложения
- управление продуктовыми мощностями
- отказоустойчивость
- масштабируемость
- дебаг и траблшутинг прода
- реагирование на инциденты
- разработка инструкций
- Обслуживание документации:
- написание документации к процессам
- написание документации к инструментам/приложениям, вводимых в эксплуатацию или уже находящихся в эксплуатации
- выполнение работ по повышению качества документации
- автоматизация работы с документацией
Ожидания от кандидата
- Опыт работы в аналогичной должности от 2-ух лет;
- Технический английский, умение читать и использовать документацию;
- Понимание работы k8s, умение доставлять приложения в k8s
- Опыт использования Ansible + Ansible Molecule для конфигурации виртуальных машин
Опыт работы с:
- IaC с использованием terraform + terratest
- Gitlab Ci/CD pipelines
- Prometheus, grafana.
- SLI, SLO, SLA. Бюджет ошибок
- Паттерны высокой доступности
Будет плюсом:
- Опыт разработки приложений/скриптов на golang/php/python;
- Vector.dev, kafka, clickhouse, zookeeper
- Victoria metrics, jaeger
- Jsonnet
Условия работы
- Возможность удаленной работы на масштабных задачах с самыми новыми инструментами и решениями;
- Система грейдов, индивидуальные планы развития, митапы, конференции, обучение в корпоративном университете, MBA;
- Дружелюбная атмосфера и открытость к новому. Здесь каждый может предложить свою идею и сформировать команду для реализации;
- Полностью белая заработная плата, также есть корпоративный ДМС и компенсация спорта 70% на годовой абонемент.