💛 Расскажите, за что вы любите вашего эйчара — а мы доставим доброе послание в любую точку мира → поделиться

SRE/Site Reliability Engineer

Местоположение и тип занятости

Полный рабочий деньМожно удаленно

Компания

Создаем решения для крупнейшей e-commеrce компании в России — ВсеИнструменты.ру

Описание вакансии

Условия работы

ВсеИнструменты.ру - это одна из крупнейших e-commerce компаний в России, лидер продаж строительных инструментов и оборудования. 16 лет на рынке, более 12 млн. посетителей в месяц, самая широкая розничная сеть в категории DIY.

- 5-е место в рейтинге лучших работодателей на Хабр Карьера за 2020 год;

- ТОП 20 рейтинга лучших работодателей России по результатам рейтинга hh.ru за 2021 год.

В нашем IT отделе более 300 человек, новые технологии и постоянно развивающиеся, высоконагруженные проекты, как монолиты так и микросервисы.

Наш стек:

  • - Golang, PHP, Javascript, немного Python и Jsonnet;
  • - Kubernetes для оркестрации контейнеризированных приложений, Ubuntu, CentOS для вм/bare metal;
  • - Mysql Percona XtraDB Cluster + proxysql, Postgresql + patroni, mongodb, Elasticsearch, Clickhouse, Redis;
  • - Confluent Kafka + Confluent Schema Registry;
  • - Ansible, Ansible molecule, Terraform, Docker, Helm, Werf, Gitlab, Gitlab CI;
  • - Prometheus, VictoriaMetrics, Grafana, NewRelic, vector.dev, Sentry.

Наш продукт:

  • - Более 427000 пайплайнов в месяц;
    - До 91 нод в одном кластере k8s;
    - До 2192 подов в одном кластере k8s;
    - Deckhouse, ванильный kubernetes

Сейчас мы ищем Site Reliability Engineer в нашу команду

Наши задачи:

  • Управление инцидентами:
  • поддержка и развитие процесса реакции на инциденты
  • управление пост-инцидентным процессом
  • контроль выполнение пост-инцидентного процесса
  • дежурство

  • Управление целевыми показателями уровня обслуживания:
  • внедрение целевых уровней качества обслуживания (SLO)
  • контроль соблюдения SLO
  • выполнение мероприятий по обслуживанию SLO
  • выработка оповещений на основе SLO

  • Эксплуатация созданных информационных систем:
  • управление конвеером доставки приложения
  • управление продуктовыми мощностями
  • отказоустойчивость
  • масштабируемость
  • дебаг и траблшутинг прода
  • реагирование на инциденты
  • разработка инструкций

  • - Обслуживание документации:
  • написание документации к процессам
  • написание документации к инструментам/приложениям, вводимых в эксплуатацию или уже находящихся в эксплуатации
  • выполнение работ по повышению качества документации
  • автоматизация работы с документацией

Что мы ждем от соискателя:

  • - Опыт работы в аналогичной должности от 2-ух лет;
  • - Технический английский, умение читать и использовать документацию;
  • - Понимание работы k8s, умение доставлять приложения в k8s
  • - Опыт использования Ansible + Ansible Molecule для конфигурации виртуальных машин
  • - Опыт работы с:
  • IaC с использованием terraform + terratest
  • Gitlab Ci/CD pipelines
  • Prometheus, grafana.
  • SLI, SLO, SLA. Бюджет ошибок
  • - Паттерны высокой доступности

Будет плюсом:

  • - Опыт разработки приложений/скриптов на golang/php/python;
  • - Vector.dev, kafka, clickhouse, zookeeper
  • - Victoria metrics, jaeger
  • - Jsonnet

Условия:

  • - Возможность удаленной работы на масштабных задачах с самыми новыми инструментами и решениями;
  • - Система грейдов, индивидуальные планы развития, митапы, конференции, обучение в корпоративном университете, MBA;
  • - Дружелюбная атмосфера и открытость к новому. Здесь каждый может предложить свою идею и сформировать команду для реализации;
  • - Полностью белая заработная плата, также есть корпоративный ДМС и компенсация спорта 70% на годовой абонемент.