Head of Operations (SRE, Infrastructure)
Требования
Местоположение и тип занятости
Компания
Описание вакансии
Условия работы
Привет! Меня зовут Ильяс Салихов, я CTO в RetailCRM.
Команда инфраструктуры в проекте росла с нуля, до недавнего времени была небольшой, и ей руководил непосредственно я.
Сейчас размер инфраструктуры и объем задач вырос, поэтому я ищу руководителя отдела, который возьмет её под свое шефство и полностью посвятит себя развитию как инфраструктуры, так и команды.
Возможно, ты уже имел подобный опыт — тогда сможешь применить его в полной мере у нас. Не менее хорошо, если у тебя пока нет опыта, но есть большое желание попробовать такую роль.
С радостью пообщаюсь с тобой! А теперь подробнее о нас и о вакансии.
RetailCRM — это передовое SaaS-решение для eCommerce и ритейла, которым каждый день пользуются тысячи клиентов.
RetailCRM вырос с нуля до большого высоконагруженного проекта (4 датацентра в Европе и России, 100+ млн запросов к backend в сутки, 70+ тысяч запросов к БД в секунду)
Сейчас над продуктом работает 12 команд разработки и эксплуатации, каждая из которых сосредоточена на своей зоне в продукте.
Инфраструктура проекта интенсивно растет и развивается.
Команда SRE:
- Обеспечивает и повышает надежность инфраструктуры
- Реагирует на инциденты, оперативно решает их
- Проводит анализ слабых точек, повышает уровень auto-failover
- Развертывает новые сервисы, разрабатываемых product teams
- Предоставляет и развивает инструменты мониторинга инфраструктуры и сервисов
Как мы работаем:
- Наш проект полностью работает на bare-metal (130+ серверов)
- Управляем инфраструктурой с помощью Ansible 2.9, придерживаемся подхода GitOps (все плейбуки и конфигурация кластеров, в том числе «секреты», в Git, довольно много pipeline-ов в ansible-репозитории)
- Аналогично через GitOps организовано управление доменами в связке Gitlab + OctoDNS + Cloudflare
- 75+ сервисов в инфраструктуре. Автоматически строим визуальную и текстовую карту сервисов http://ds.retailcrm.tech/s/1625674134.png
- Для мониторинга и логов используем Zabbix, Pinba, ClickHouse, Redash, Grafana
- В качестве внутренних систем используем Redmine, Gitlab, Slack. В Slack для разработчиков выводим «ручки» для самостоятельного деплоя своих сервисов
- Довольно компактный стек технологий для разработки сервисов. 99% сервисов на Nginx, PHP, Go, PostgreSQL, Redis
- В команде выстроена система дежурств. Каждую неделю дежурит определенный SRE-специалист, который в первую очередь реагирует на инциденты и помогает отделам техподдержки и разработки
- Выстроена система Postmortem. Фиксируем хронологию инцидентов, причины их возникновения и пути решения
Тебе, как руководителю отдела, потребуется:
- выстроить системность процессов
- обеспечивать динамичность запуска новых сервисов
- обеспечить высокую доступность инфраструктуры, выявить самые проблемные точки и последовательно их устранять
- развивать инфраструктуру, выводить на новый уровень
- развивать команду в целом и каждого его члена в отдельности
Что ожидаем от кандидата:
- Знание Linux и сетевых технологий на уровне системного администратора
- Опыт работы с Ansible
- Опыт работы с системами мониторинга и логирования
- Опыт работы с git, CI/CD-системами
- Опыт работы с docker/docker-compose (k8s будет плюсом)
- Опыт обслуживания реляционных СУБД (здорово, если это PostgreSQL)
- Будет плюсом опыт программирования на PHP/Go
- Способность оценивать сроки, вовремя давать обратную связь о проблемах и не бояться их обсуждать
- Ответственность за принимаемые решения, проактивность в работе, ориентация на результат
- Хорошие коммуникативные навыки
- Английский язык на уровне чтения документации и переписки с техподдержкой
Условия:
- Профессиональный рост: сильная команда, сложные задачи, современный стек;
- Комфортные условия: график 5/2, гибкий подход к началу рабочего дня, настроенные процессы, минимум бюрократии;
- Стабильная работа и заработная плата с регулярным повышением (размер обсуждается по итогам собеседования);
- Мы работаем как из офисов в Липецке, Воронеже, Ростове и Москве, так и в удаленном режиме.