Head of Operations (SRE, Infrastructure)

26 января 2022

Требования

DevOps-инженер, Ведущий (Lead) • Linux • Ansible • Docker • Git • CI/CD

Местоположение и тип занятости

• Полный рабочий день • Можно удаленно

Компания

RetailCRM

Решение для eCommerce и ритейла

Описание вакансии

Условия работы

Привет! Меня зовут Ильяс Салихов, я CTO в RetailCRM.
Команда инфраструктуры в проекте росла с нуля, до недавнего времени была небольшой, и ей руководил непосредственно я.

Сейчас размер инфраструктуры и объем задач вырос, поэтому я ищу руководителя отдела, который возьмет её под свое шефство и полностью посвятит себя развитию как инфраструктуры, так и команды.

Возможно, ты уже имел подобный опыт — тогда сможешь применить его в полной мере у нас. Не менее хорошо, если у тебя пока нет опыта, но есть большое желание попробовать такую роль.

С радостью пообщаюсь с тобой! А теперь подробнее о нас и о вакансии.

RetailCRM — это передовое SaaS-решение для eCommerce и ритейла, которым каждый день пользуются тысячи клиентов.

RetailCRM вырос с нуля до большого высоконагруженного проекта (4 датацентра в Европе и России, 100+ млн запросов к backend в сутки, 70+ тысяч запросов к БД в секунду)

Сейчас над продуктом работает 12 команд разработки и эксплуатации, каждая из которых сосредоточена на своей зоне в продукте.

Инфраструктура проекта интенсивно растет и развивается.

Команда SRE:

Обеспечивает и повышает надежность инфраструктуры
Реагирует на инциденты, оперативно решает их
Проводит анализ слабых точек, повышает уровень auto-failover
Развертывает новые сервисы, разрабатываемых product teams
Предоставляет и развивает инструменты мониторинга инфраструктуры и сервисов

Как мы работаем:

Наш проект полностью работает на bare-metal (130+ серверов)
Управляем инфраструктурой с помощью Ansible 2.9, придерживаемся подхода GitOps (все плейбуки и конфигурация кластеров, в том числе «секреты», в Git, довольно много pipeline-ов в ansible-репозитории)
Аналогично через GitOps организовано управление доменами в связке Gitlab + OctoDNS + Cloudflare
75+ сервисов в инфраструктуре. Автоматически строим визуальную и текстовую карту сервисов http://ds.retailcrm.tech/s/1625674134.png
Для мониторинга и логов используем Zabbix, Pinba, ClickHouse, Redash, Grafana
В качестве внутренних систем используем Redmine, Gitlab, Slack. В Slack для разработчиков выводим «ручки» для самостоятельного деплоя своих сервисов
Довольно компактный стек технологий для разработки сервисов. 99% сервисов на Nginx, PHP, Go, PostgreSQL, Redis
В команде выстроена система дежурств. Каждую неделю дежурит определенный SRE-специалист, который в первую очередь реагирует на инциденты и помогает отделам техподдержки и разработки
Выстроена система Postmortem. Фиксируем хронологию инцидентов, причины их возникновения и пути решения

Тебе, как руководителю отдела, потребуется:

выстроить системность процессов
обеспечивать динамичность запуска новых сервисов
обеспечить высокую доступность инфраструктуры, выявить самые проблемные точки и последовательно их устранять
развивать инфраструктуру, выводить на новый уровень
развивать команду в целом и каждого его члена в отдельности

Что ожидаем от кандидата:

Знание Linux и сетевых технологий на уровне системного администратора
Опыт работы с Ansible
Опыт работы с системами мониторинга и логирования
Опыт работы с git, CI/CD-системами
Опыт работы с docker/docker-compose (k8s будет плюсом)
Опыт обслуживания реляционных СУБД (здорово, если это PostgreSQL)
Будет плюсом опыт программирования на PHP/Go
Способность оценивать сроки, вовремя давать обратную связь о проблемах и не бояться их обсуждать
Ответственность за принимаемые решения, проактивность в работе, ориентация на результат
Хорошие коммуникативные навыки
Английский язык на уровне чтения документации и переписки с техподдержкой

Условия:

Профессиональный рост: сильная команда, сложные задачи, современный стек;
Комфортные условия: график 5/2, гибкий подход к началу рабочего дня, настроенные процессы, минимум бюрократии;
Стабильная работа и заработная плата с регулярным повышением (размер обсуждается по итогам собеседования);
Мы работаем как из офисов в Липецке, Воронеже, Ростове и Москве, так и в удаленном режиме.

Смотреть ещё вакансии

Системный администратор

103

Системный администратор удаленно

Системный администратор на полный рабочий день удаленно

Системный администратор на полный рабочий день