Head of Operations (SRE, Infrastructure)

Требования

DevOps-инженер, Ведущий (Lead)LinuxAnsibleDockerGitCI/CD

Местоположение и тип занятости

Полный рабочий деньМожно удаленно

Компания

Решение для eCommerce и ритейла

Описание вакансии

Условия работы

Привет! Меня зовут Ильяс Салихов, я CTO в RetailCRM.
Команда инфраструктуры в проекте росла с нуля, до недавнего времени была небольшой, и ей руководил непосредственно я.

Сейчас размер инфраструктуры и объем задач вырос, поэтому я ищу руководителя отдела, который возьмет её под свое шефство и полностью посвятит себя развитию как инфраструктуры, так и команды.

Возможно, ты уже имел подобный опыт — тогда сможешь применить его в полной мере у нас. Не менее хорошо, если у тебя пока нет опыта, но есть большое желание попробовать такую роль.

С радостью пообщаюсь с тобой! А теперь подробнее о нас и о вакансии.

RetailCRM — это передовое SaaS-решение для eCommerce и ритейла, которым каждый день пользуются тысячи клиентов.

RetailCRM вырос с нуля до большого высоконагруженного проекта (4 датацентра в Европе и России, 100+ млн запросов к backend в сутки, 70+ тысяч запросов к БД в секунду)

Сейчас над продуктом работает 12 команд разработки и эксплуатации, каждая из которых сосредоточена на своей зоне в продукте.

Инфраструктура проекта интенсивно растет и развивается.

Команда SRE:

  • Обеспечивает и повышает надежность инфраструктуры
  • Реагирует на инциденты, оперативно решает их
  • Проводит анализ слабых точек, повышает уровень auto-failover
  • Развертывает новые сервисы, разрабатываемых product teams
  • Предоставляет и развивает инструменты мониторинга инфраструктуры и сервисов

Как мы работаем:

  • Наш проект полностью работает на bare-metal (130+ серверов)
  • Управляем инфраструктурой с помощью Ansible 2.9, придерживаемся подхода GitOps (все плейбуки и конфигурация кластеров, в том числе «секреты», в Git, довольно много pipeline-ов в ansible-репозитории)
  • Аналогично через GitOps организовано управление доменами в связке Gitlab + OctoDNS + Cloudflare
  • 75+ сервисов в инфраструктуре. Автоматически строим визуальную и текстовую карту сервисов http://ds.retailcrm.tech/s/1625674134.png
  • Для мониторинга и логов используем Zabbix, Pinba, ClickHouse, Redash, Grafana
  • В качестве внутренних систем используем Redmine, Gitlab, Slack. В Slack для разработчиков выводим «ручки» для самостоятельного деплоя своих сервисов
  • Довольно компактный стек технологий для разработки сервисов. 99% сервисов на NginxPHP, Go, PostgreSQL, Redis
  • В команде выстроена система дежурств. Каждую неделю дежурит определенный SRE-специалист, который в первую очередь реагирует на инциденты и помогает отделам техподдержки и разработки
  • Выстроена система Postmortem. Фиксируем хронологию инцидентов, причины их возникновения и пути решения

Тебе, как руководителю отдела, потребуется:

  • выстроить системность процессов
  • обеспечивать динамичность запуска новых сервисов
  • обеспечить высокую доступность инфраструктуры, выявить самые проблемные точки и последовательно их устранять
  • развивать инфраструктуру, выводить на новый уровень
  • развивать команду в целом и каждого его члена в отдельности

Что ожидаем от кандидата:

  • Знание Linux и сетевых технологий на уровне системного администратора
  • Опыт работы с Ansible
  • Опыт работы с системами мониторинга и логирования
  • Опыт работы с git, CI/CD-системами
  • Опыт работы с docker/docker-compose (k8s будет плюсом)
  • Опыт обслуживания реляционных СУБД (здорово, если это PostgreSQL)
  • Будет плюсом опыт программирования на PHP/Go
  • Способность оценивать сроки, вовремя давать обратную связь о проблемах и не бояться их обсуждать
  • Ответственность за принимаемые решения, проактивность в работе, ориентация на результат
  • Хорошие коммуникативные навыки
  • Английский язык на уровне чтения документации и переписки с техподдержкой

Условия:

  • Профессиональный рост: сильная команда, сложные задачи, современный стек;
  • Комфортные условия: график 5/2, гибкий подход к началу рабочего дня, настроенные процессы, минимум бюрократии;
  • Стабильная работа и заработная плата с регулярным повышением (размер обсуждается по итогам собеседования);
  • Мы работаем как из офисов в Липецке, Воронеже, Ростове и Москве, так и в удаленном режиме.