SRE
Требования
Местоположение и тип занятости
Компания
Описание вакансии
Условия работы
Привет!
В условиях всемирной турбулентности мы сделали выбор в пользу медленного найма и будем максимально честны. Что это значит?
- Мы по-прежнему ждём ваши отклики, отвечаем на них, проводим технические и HR-интервью в онлайне.
- После успешного прохождения всех этапов, вас ждёт собеседование с СТО. Мы считаем, что этот этап важно проводить лично. Поэтому, как только отменят карантин, мы сможем его назначить. Ориентируемся, что это будет в июне.
- Все офферы о выходе можно будет получить с 1 июля.
Если вас заинтересовала наша вакансия и выход на работу до 1 июля не критичен – присылайте резюме. И помните, что в любое время всё может измениться в лучшую сторону.
Додо Пицца - это сеть пиццерий, мы работает по франчайзингу и предоставляем нашим партнерам инструмент для автоматизации ведения бизнеса. Сейчас в сети уже больше больше 600 пиццерий в 13 странах ++ 4 (до конца года).
Мы разрабатываем IT платформу - DodoIS, которая обеспечивает работу наших пиццерий. Сейчас DodoIS - это касса, сайт, мобильное приложение, трекинг заказов в пиццерии, инструменты для сложного экономического анализа и много чего еще, где интегрируются все этапы работы сети.
Мы ищем SRE, который поможет нам расти быстро и при этом сохранять надежность сервисов и инфраструктуры.
Мы не знаем, с какими сложностями столкнется наша платформа завтра. Поэтому решили привести примеры проектов и технологий в них, с которыми наша команда SRE уже работала:
- Перенос инфраструктуры в Terraform Hashicorp terraform, написание качественных(по всем правилам разработки) скриптов на python и bash(почти нет), написание кода для создания образов через hashicorp packer и ansible, проектирование и автоматизация azure iam, настройка сборки и генерации терраформ и другого кода через jsonnet, работа с azure rest api и azure-cli, написание пайплайнов билдов в drone.io;
- Уменьшение рутины(тойла) разработчиков. Доработка ansible-ролей для TeamCity агентов, настройка azure resources monitoring в prometheus, установка и настройка в образы виртуалок для dev-окружений telegraf exporter, автоматизация включения-выключения vm на dev-окружениях по графику, настройка rmq, elasticsearch exporter для dev-окружений, автоматизация для разработчиков через slack(управление запусками машин), совместная работа с разработчиками, добавление метрик в Prometheus(это в k8s, а там еще и helm), теория по мониторингу:
- Улучшение системы обработки тикетов Платформой (SRE). Написание Azure function на python, jsonnet и drone.io в для build/deploy pipeline, теория по работе OnCall/OnDuty(sre book и другие) и работе с прерываниями, работа с slack api, работа с kaiten api и общение с их разработчиками;
- Переезд с собственной базы MySql на Azure MySql (MySql IaaS -> MySql SaaS). Mysql администрирование, databases in cloud, настройка бэкапов, репликации и скриптов деперсонализации, работа с базой(простановка PK, индексов, изменение таблиц, оптимизация запросов), курирование оптимизации кода и sql запросов разработчиками, работа с нагрузочным стендом(интерпретация, понимание возникающих проблем), способы обеспечения безопасности в azure для баз данных, работа с тулингом для mysql-баз и модификация его, проведение работ на проде по переключению баз, пересаживание билда с drone на drone+kube runner, составление ранбуков для дежурных по обслуживанию баз, настройка dev-баз в k8s;
- Перевод логов в Kusto, уход от ElasticSearch. Работа с новым сервисом от Microsoft Kusto, взаимодействие с командой разработки от MS и другими вендорами, работы с инфраструктурой логирования logstash, filebeat, работа с логированием в бизнес-софте - понимание принципов логирования и подходов в dotnet стеке, запуск и отладка dotnet приложений совместно с разработчиками, работа с azure blob storage, работа с azure event hub, логирование и мониторинг в k8s.
- Подготовка k8s к высоконагруженным сервисам. Перевод AKS на новую версию с нодпулами, тоже самое для Китайского Azure, обновление helm в сервисах и драйвинг этой темы, выставление лимитов на приложения, внесение изменений в разработку по НФТ, касающихся healthcheck и readness probe, дизайн и переработка RBAC.
Описание задач:
- Участие или техническое лидерство в проектах Платформы;
- Разработке платформы для разработчиков в Kubernetes;
- Разработка и доработка собственных сервисов для поддержания инфраструктуры;
- Улучшении мониторинга, надежности и оптимизации наших бизнесовых сервисов;
- Дневные и вечерние дежурства по ротации;
- Консультация разработчиков по дизайну и разработке сервисов;
- Планировании и прогнозировании использования ресурсов, анализ и оценка проектов;
- Участие в load-, stress- и chaos- тестировании инфраструктуры и сервисов
- Взаимодействие с командами разработки
Требования:
- Разработка на одном из языков программирования (мы используем Python, Go и C#);
- Иметь практический опыт в разработке, дизайне и операционной поддержке распределенных систем с доступностью 24/7/365;
- Иметь крепкие практические знания в устройстве UNIX-систем, сетевых протоколов и балансировщиков нагрузки;
- Разбираться в инфраструктуре мониторинга - системы логирования, трейсинга, сбора, хранения и визуализации метрик;
- Иметь опыт конфигурации и менеджмента инфраструктуры как кода;
- Работать с облаками (любой из AWS, Azure, GCP). У нас Azure.
Преимуществом будет:
- Понимание принципов и подходов SRE/DevOps;
- Иметь знания и опыт по работе с WindowsServer/.NET Stack или желание заниматься этим периодически;
- Опыт работы с prometheus/alert-manager.
Бонусы
Мы предлагаем:
Культура, свободная от корпоративных предрассудков;
Комфортный офис в центре Москвы, крыша с видом на Москва-реку;
Современные машины для работы;
Возможность самостоятельно принимать решения;
Адекватная зарплата (обсуждается на интервью), ДМС, скидки от наших партнеров;
Участие в опционной программе;
Помощь в переезде кандидатам не из Москвы.
Дополнительные инструкции
Для кандидатов из регионов у нас есть помощь при переезде. Подробнее узнавайте у Евгении в телеграм: @ostroumova