SRE
Требования
Местоположение и тип занятости
Компания
Описание вакансии
Условия работы
Додо Пицца - это сеть пиццерий, мы работаем по франчайзингу и предоставляем нашим партнерам инструмент для автоматизации ведения бизнеса. Сейчас в сети уже больше больше 620 пиццерий в 13 странах, включая Великобританию, США, Нигерию и Китай.
Мы разрабатываем IT платформу - DodoIS, которая обеспечивает работу наших пиццерий. Сейчас DodoIS - это касса, сайт, мобильное приложение, трекинг заказов в пиццерии, инструменты для сложного экономического анализа и много чего еще, где интегрируются все этапы работы сети.
Мы ищем SRE-SE, который поможет нам расти быстро и при этом сохранять надежность сервисов и инфраструктуры.
Пример проектов, технологий, задач и необходимых навыков. Это мы делали за последний год.
- Перенос инфраструктуры в Terraform Hashicorp terraform, написание качественных(по всем правилам разработки) скриптов на python и bash(почти нет), написание кода для создания образов через hashicorp packer и ansible, проектирование и автоматизация azure iam, настройка сборки и генерации терраформ и другого кода через jsonnet, работа с azure rest api и azure-cli, написание пайплайнов билдов в drone.io;
- Уменьшение рутины (тойла) разработчиков. Доработка ansible-ролей для TeamCity агентов, настройка azure resources monitoring в prometheus, установка и настройка в образы виртуалок для dev-окружений telegraf exporter, автоматизация включения-выключения vm на dev-окружениях по графику, настройка rmq, elasticsearch exporter для dev-окружений, автоматизация для разработчиков через slack (управление запусками машин), совместная работа с разработчиками, добавление метрик в Prometheus (это в k8s, а там еще и helm), теория по мониторингу:
- Улучшение системы обработки тикетов Платформой (SRE). Написание Azure function на python, jsonnet и drone.io для build/deploy pipeline, теория по работе OnCall/OnDuty (sre book и другие) и работе с прерываниями, работа с slack api, работа с kaiten api и общение с их разработчиками;
- Переезд с собственной базы MySql на Azure MySql (MySql IaaS -> MySql SaaS). Mysql администрирование, databases in cloud, настройка бэкапов, репликации и скриптов деперсонализации, работа с базой (простановка PK, индексов, изменение таблиц, оптимизация запросов), курирование оптимизации кода и sql запросов разработчиками, работа с нагрузочным стендом(интерпретация, понимание возникающих проблем), способы обеспечения безопасности в azure для баз данных, работа с тулингом для mysql-баз и модификация его, проведение работ на проде по переключению баз, пересаживание билда с drone на drone+kube runner, составление ранбуков для дежурных по обслуживанию баз;
- Перевод логов в Kusto, уход от ElasticSearch. Работа с новым сервисом от Microsoft - Azure Data Explorer(Kusto), взаимодействие с командой разработки от MS и другими вендорами, работы с инфраструктурой логирования logstash, filebeat, работа с логированием в бизнес-софте - понимание принципов логирования и подходов в dotnet стеке, запуск и отладка dotnet приложений совместно с разработчиками, работа с azure blob storage, работа с azure event hub, логирование и мониторинг в k8s, доработки в k2bridge, разработка тулинга для генерации кусто-вьюшек по данным логов, установка и поддержка kibana для kusto.
- Подготовка k8s к высоконагруженным сервисам. Перевод AKS на новую версию с нодпулами, тоже самое для Китайского Azure, обновление helm в сервисах и драйвинг этой темы, выставление лимитов на приложения, внесение изменений в разработку по НФТ, касающихся healthcheck и readness probe, дизайн и переработка RBAC, перевод деплоя бизнесовых сервисов на gitops, разработка и поддержка тулинга (бот в слаке) для удобства деплоя и контроля развертывания сервисов в кубернетесе,
Что необходимо:
- Разработка на одном из языков программирования (мы используем C#, Python и немного Go);
- Иметь крепкие практические знания в устройстве UNIX-систем, сетевых протоколов и балансировщиков нагрузки;
- Работать с облаками (любой из AWS, Azure, GCP). У нас Azure.
- Иметь практический опыт в разработке, дизайне и операционной поддержке распределенных систем с доступностью 24/7/365;
- Разбираться в инфраструктуре мониторинга - системы логирования, трейсинга, сбора, хранения и визуализации метрик;
- Иметь опыт конфигурации и менеджмента инфраструктуры как кода;
- soft skills. Работа в команде, уметь давать и принимать конструктивную обратную связь, blameless culture, умение находить баланс между идеальным решением в вакууме и текущими нуждами компании(keep business running)
Преимуществом будет:
- Понимание принципов и подходов SRE/DevOps;
- Опыт поддержки кластера, написание операторов и разработка автоматизации вокруг Kubernetes;
Описание задач:
- Участие или техническое лидерство в проектах Платформы;
- Разработка платформы для разработчиков на базе Kubernetes;
- Разработка и доработка собственных сервисов, тулов и ботов для поддержания инфраструктуры;
- Улучшение мониторинга, надежности и помощь в оптимизации наших бизнесовых сервисов;
- Поддержка и развитие инфраструктуры в Terraform по созданию стендов, выделению ресурсов в Azure;
- Поддержка баз данных в прод и дев среде. Поддержка пайплайна бэкапа, деперсонализации и рестора mysql с прод среды на дев стенды.
- Дневные и вечерние дежурства по ротации. Реагирование на инциденты, устранение неполадок, системное решение проблемы, написание и ведение постмортемов. Обработка тикетов от разработчиков, выдача прав, решение проблем, консультирование;
- Консультация разработчиков по дизайну и разработке сервисов;
- Взаимодействие с командами разработки.
- Работа с WindowsServer(мы отказываемся, но пока есть).
Дополнительные инструкции
Почему у нас круто работать?
- Большие задачи. Сейчас мы лидеры на пицца-рынке России и только увеличиваем отрыв от конкурентов. Но мы хотим выиграть конкуренцию на международных рынках и активно развиваемся за рубежом. Мы собираемся стать первой глобальной розничной компанией родом из России.
- Обмен опытом. У нас есть самоорганизующиеся community, где наши ребята делятся друг с другом опытом, Dev Forum с приглашенными гостями, тренинги и интенсивы, уроки английского!
- Высокая доступность. Система должна стабильно работать под пиковыми нагрузками обрабатывая данные с минимальной задержкой. Для этого мы используем очереди, микросервисы и асинхронность.
- IT во главе угла. Мы меняем процессы при помощи технологий. Это то, что называется хайповым словом цифровая трансформация.
- Команда профессионалов. У нас нет случайных людей. В нашей команде собрались люди с опытом работы в больших международных компаниях, которые понимают, как делать качественный продукт. eXP, TDD, DDD, pair programming, фреймворки гибкой разработки – это то, что мы используем в ежедневной работе.
- No bullshit культура. Мы открыты и доверяем друг другу. У нас нет цепочек согласования и ресурсного планирования. Идеи максимально быстро трансформируются в ценность, которую получают наши клиенты.
Мы предлагаем:
- Работа в офисе или удаленная работа, но иногда нужно приезжать в Москву пообщаться;
- Белую заработную плату;
- Оплату профильных конференций;
- Оплату профильных курсов;
- Покупку профессиональной литературы;
- Компенсация 70% ДМС со стоматологией и страховкой для выезда зарубеж;
- Скидку на уроки английского языка в Skyeng;
- Прокачку навыков публичных выступлений (сделаем из вас крутого спикера);
- Помощь в написании профессиональных статей и раскрутку вас, как автора, на профильных ресурсах (Хабр, VC);
- Фрукты, каши, кофе в офисе;
- Коллекцию настолок и FIFA, чтобы расслабиться после работы;
- Помощь в переезде кандидатам из регионов (релокационный бонус).