SRE

Местоположение и тип занятости

МоскваПолный рабочий деньМожно удаленно

Компания

Описание вакансии

Условия работы

Додо Пицца - это сеть пиццерий, мы работаем по франчайзингу и предоставляем нашим партнерам инструмент для автоматизации ведения бизнеса. Сейчас в сети уже больше больше 620 пиццерий в 13 странах, включая Великобританию, США, Нигерию и Китай.

Мы разрабатываем IT платформу - DodoIS, которая обеспечивает работу наших пиццерий. Сейчас DodoIS - это касса, сайт, мобильное приложение, трекинг заказов в пиццерии, инструменты для сложного экономического анализа и много чего еще, где интегрируются все этапы работы сети.

Мы ищем SRE-SE, который поможет нам расти быстро и при этом сохранять надежность сервисов и инфраструктуры.

Пример проектов, технологий, задач и необходимых навыков. Это мы делали за последний год.

  • Перенос инфраструктуры в Terraform Hashicorp terraform, написание качественных(по всем правилам разработки) скриптов на python и bash(почти нет), написание кода для создания образов через hashicorp packer и ansible, проектирование и автоматизация azure iam, настройка сборки и генерации терраформ и другого кода через jsonnet, работа с azure rest api и azure-cli, написание пайплайнов билдов в drone.io;
  • Уменьшение рутины (тойла) разработчиков. Доработка ansible-ролей для TeamCity агентов, настройка azure resources monitoring в prometheus, установка и настройка в образы виртуалок для dev-окружений telegraf exporter, автоматизация включения-выключения vm на dev-окружениях по графику, настройка rmq, elasticsearch exporter для dev-окружений, автоматизация для разработчиков через slack (управление запусками машин), совместная работа с разработчиками, добавление метрик в Prometheus (это в k8s, а там еще и helm), теория по мониторингу:
  • Улучшение системы обработки тикетов Платформой (SRE). Написание Azure function на python, jsonnet и drone.io для build/deploy pipeline, теория по работе OnCall/OnDuty (sre book и другие) и работе с прерываниями, работа с slack api, работа с kaiten api и общение с их разработчиками;
  • Переезд с собственной базы MySql на Azure MySql (MySql IaaS -> MySql SaaS). Mysql администрирование, databases in cloud, настройка бэкапов, репликации и скриптов деперсонализации, работа с базой (простановка PK, индексов, изменение таблиц, оптимизация запросов), курирование оптимизации кода и sql запросов разработчиками, работа с нагрузочным стендом(интерпретация, понимание возникающих проблем), способы обеспечения безопасности в azure для баз данных, работа с тулингом для mysql-баз и модификация его, проведение работ на проде по переключению баз, пересаживание билда с drone на drone+kube runner, составление ранбуков для дежурных по обслуживанию баз;
  • Перевод логов в Kusto, уход от ElasticSearch. Работа с новым сервисом от Microsoft - Azure Data Explorer(Kusto), взаимодействие с командой разработки от MS и другими вендорами, работы с инфраструктурой логирования logstash, filebeat, работа с логированием в бизнес-софте - понимание принципов логирования и подходов в dotnet стеке, запуск и отладка dotnet приложений совместно с разработчиками, работа с azure blob storage, работа с azure event hub, логирование и мониторинг в k8s, доработки в k2bridge, разработка тулинга для генерации кусто-вьюшек по данным логов, установка и поддержка kibana для kusto.
  • Подготовка k8s к высоконагруженным сервисам. Перевод AKS на новую версию с нодпулами, тоже самое для Китайского Azure, обновление helm в сервисах и драйвинг этой темы, выставление лимитов на приложения, внесение изменений в разработку по НФТ, касающихся healthcheck и readness probe, дизайн и переработка RBAC, перевод деплоя бизнесовых сервисов на gitops, разработка и поддержка тулинга (бот в слаке) для удобства деплоя и контроля развертывания сервисов в кубернетесе,

Что необходимо:

  • Разработка на одном из языков программирования (мы используем C#, Python и немного Go);
  • Иметь крепкие практические знания в устройстве UNIX-систем, сетевых протоколов и балансировщиков нагрузки;
  • Работать с облаками (любой из AWS, Azure, GCP). У нас Azure.
  • Иметь практический опыт в разработке, дизайне и операционной поддержке распределенных систем с доступностью 24/7/365;
  • Разбираться в инфраструктуре мониторинга - системы логирования, трейсинга, сбора, хранения и визуализации метрик;
  • Иметь опыт конфигурации и менеджмента инфраструктуры как кода;
  • soft skills. Работа в команде, уметь давать и принимать конструктивную обратную связь, blameless culture, умение находить баланс между идеальным решением в вакууме и текущими нуждами компании(keep business running) 

Преимуществом будет:

  • Понимание принципов и подходов SRE/DevOps;
  • Опыт поддержки кластера, написание операторов и разработка автоматизации вокруг Kubernetes;

Описание задач:

  • Участие или техническое лидерство в проектах Платформы;
  • Разработка платформы для разработчиков на базе Kubernetes;
  • Разработка и доработка собственных сервисов, тулов и ботов для поддержания инфраструктуры;
  • Улучшение мониторинга, надежности и помощь в оптимизации наших бизнесовых сервисов;
  • Поддержка и развитие инфраструктуры в Terraform по созданию стендов, выделению ресурсов в Azure;
  • Поддержка баз данных в прод и дев среде. Поддержка пайплайна бэкапа, деперсонализации и рестора mysql с прод среды на дев стенды. 
  • Дневные и вечерние дежурства по ротации. Реагирование на инциденты, устранение неполадок, системное решение проблемы, написание и ведение постмортемов. Обработка тикетов от разработчиков, выдача прав, решение проблем, консультирование;
  • Консультация разработчиков по дизайну и разработке сервисов;
  • Взаимодействие с командами разработки.
  • Работа с WindowsServer(мы отказываемся, но пока есть).

Дополнительные инструкции

Почему у нас круто работать?

  • Большие задачи. Сейчас мы лидеры на пицца-рынке России и только увеличиваем отрыв от конкурентов. Но мы хотим выиграть конкуренцию на международных рынках и активно развиваемся за рубежом. Мы собираемся стать первой глобальной розничной компанией родом из России.
  • Обмен опытом. У нас есть самоорганизующиеся community, где наши ребята делятся друг с другом опытом, Dev Forum с приглашенными гостями, тренинги и интенсивы, уроки английского!
  • Высокая доступность. Система должна стабильно работать под пиковыми нагрузками обрабатывая данные с минимальной задержкой. Для этого мы используем очереди, микросервисы и асинхронность.
  • IT во главе угла. Мы меняем процессы при помощи технологий. Это то, что называется хайповым словом цифровая трансформация.
  • Команда профессионалов. У нас нет случайных людей. В нашей команде собрались люди с опытом работы в больших международных компаниях, которые понимают, как делать качественный продукт. eXP, TDD, DDD, pair programming, фреймворки гибкой разработки – это то, что мы используем в ежедневной работе.
  • No bullshit культура. Мы открыты и доверяем друг другу. У нас нет цепочек согласования и ресурсного планирования. Идеи максимально быстро трансформируются в ценность, которую получают наши клиенты.

Мы предлагаем:

  • Работа в офисе или удаленная работа, но иногда нужно приезжать в Москву пообщаться;
  • Белую заработную плату;
  • Оплату профильных конференций;
  • Оплату профильных курсов;
  • Покупку профессиональной литературы;
  • Компенсация 70% ДМС со стоматологией и страховкой для выезда зарубеж;
  • Скидку на уроки английского языка в Skyeng;
  • Прокачку навыков публичных выступлений (сделаем из вас крутого спикера);
  • Помощь в написании профессиональных статей и раскрутку вас, как автора, на профильных ресурсах (Хабр, VC);
  • Фрукты, каши, кофе в офисе;
  • Коллекцию настолок и FIFA, чтобы расслабиться после работы;
  • Помощь в переезде кандидатам из регионов (релокационный бонус).