Reliability Lead (Лидер надежности)
Требования
Местоположение и тип занятости
Компания
Крупнейшая телекоммуникационная и ведущая ИТ-компания
Описание вакансии
Условия работы
Мы приглашаем в нашу команду специалиста на позицию Лидера по направлению Надежности, который поможет нам выстроить и внедрить единые подходы к обеспечению надежности продуктов, сервисов и систем в рамках Экосистемы МТС.
Чем предстоит заниматься:
- Выстраивание единой методологии управления надежностью для Экосистемы МТС, включая подходы к:
- определению классов критичности систем и сервисов на основе влияния их простоя на бизнес-процессы Экосистемы;
- оценке экономически-обоснованных значений RTO и RPO;
- формированию системы продуктовых метрик в части обеспечения надежности;
- выстраиванию процессов управления уровнем сервиса на основе SLA/SLO/SLI;
- обеспечению непрерывности и доступности критичных для экосистемы систем и сервисов;
- управлению критическими событиями в продуктивной среде.
- Исполнение роли основного стейкхолдера платформы обеспечения эксплуатации экосистемы в части развития и масштабирования решений по мониторингу и управлению Критическими инцидентами и проблемами.
- Исполнение роли стейкхолдера платформы производственного процесса в части встраивания в процессы разработки и поставки элементов обеспечения надежности.
- Формирование Центра компетенций по управлению надежностью (методологическое развитие, экспертный консалтинг, обучение, управление бэклогом развития направления) и Центра практик по обеспечению надежности (SRE) (обеспечение масштабирование стандартов в рамках методологии обеспечения надежности, формирование комьюнити экспертов, сертификация экспертов и команды на соответствие стандартам группы, сопровождение «сложных» кейсов и т.д.).
- Развитие функции Mission Control Center (ситуационного центра) c функциями централизованного мониторинга состояния критических бизнес-сервисов Экосистемы, синхронизации критических изменений в продуктивной среде, координацией устранения критических инцидентов с последующим контролем восстановления сервисов и проведения postmortem анализа.
- Последующее управление Центром компетенций по управлению надежностью.
Что мы ожидаем видеть в вас:
- Опыт работы в ИТ от 10 лет;
- Наличие управленческого опыта (управление командой не менее 10 человек);
- Отличные коммуникационные навыки;
- Опыт работы на позиции лидера практики SRE в крупных технологических компаниях;
- Опыт разработки SLA/SLI/SLO и знание принципов их формирования;
- Практический опыт локализации проблем и устранения инцидентов в больших и сложных системах;
- Опыт внедрения практик и инструментов SRE и DevOps;
- Знание принципов работы SCM систем и современных средств мониторинга и автоматизации управления инфраструктурой;
- Практический опыт внедрения практик и инструментов Capacity Management, Availability Management, Business Continuity Management;
- Опыт организации построения или управления инфраструктурой отказоустойчивых систем, работающих в режиме 24x7x365 и требующих минимального участия человека;
- Знание принципов и методов обеспечения качества и надёжности ИТ сервисов;
- Английский не ниже Intermediate.
Мы предлагаем:
- Стабильную заработную плату и премии (20% от суммарного годового дохода);
- Компенсацию мобильной связи с первого дня;
- Заботу о здоровье своих сотрудников: ДМС, включая стоматологию;
- Саморазвитие: вы сможете проходить тренинги очно и дистанционно в Корпоративном университете компании и участвовать в чемпионатах по программированию;
- Спорт - корпоративные соревнования по футболу, баскетболу и волейболу, различные спорт-программы и компенсацию вашего фитнес-абонемента;
- Хороший отдых - отпуск 28 календарных дней + 3 календарных дня дополнительно ежегодно.
Дополнительные инструкции
Можно написать в тележке рекрутеру @annsannikovaa