SRE Cluster Lead/Руководитель направления

29 марта

Требования

Инженер по доступности сервисов, Ведущий (Lead) • Docker • Kubernetes • CI/CD

Местоположение и тип занятости

• Полный рабочий день • Можно удаленно

Компания

МТС

Крупнейшая телекоммуникационная и ведущая ИТ-компания

Описание вакансии

О компании и команде

МТС – это мультисервисная цифровая экосистема. Мы создаем и развиваем сервисы в сфере мобильной связи, больших данных, искусственного интеллекта, облачного хранения, медиа и финансов – все они делают жизнь людей проще и интереснее.

Миссия: организация практик сопровождения, SRE, обеспечения надежности в кластере "Корпоративные сервисы", в котором объединены команды, создающие продукты для сотрудников и внутренних процессов группы компаний МТС.

Ожидания от кандидата

опыт работы на позиции лидера практики SRE / руководителя эксплуатации в крупных технологических компаниях
опыт организации процессов эксплуатации, сопровождения и обеспечения надежности в группе продуктовых команд
знание и опыт построения отказоустойчивых и наблюдаемых (observable) систем, соответствующих технологических инструментов
опыт разработки SLA/SLI/SLO и знание принципов их формирования
практический опыт локализации проблем и устранения инцидентов в больших и сложных системах
опыт внедрения практик и инструментов SRE и DevOps, встраивания процессов / процедур обеспечения надежности в эксплуатационные процессы
опыт формирования стратегий и дорожных карт по своему направлению.

Условия работы

профессиональные гильдии инженеров по направлениям, чтобы поддерживать друг друга и обмениваться опытом
внутреннюю площадку TechTalks для обмена опытом, дискуссий, развития навыков самопрезентации
участие во внешних IT конференциях. Мы выступаем на HighLoad++, DataFest, Mobius, Test Driven Conf, Joker, DevOps, Матемаркетинг и даже проводим собственную конференцию по архитектуре Hello, conference!
полезные курсы и вебинары в корпоративном университете и электронные библиотеки.

Дополнительные инструкции

Что нужно делать

обеспечить выполнение технологической стратегии по направлению надежности, её уточнение и адаптация под специфику продуктов кластера
внедрить практики SRE на уровне трайбов и продуктов
организовать формирование планов и мероприятий по обеспечению непрерывности (DRP/DRT, катастрофоустойчивость, подтверждение заявленных RTO/RPO)
обеспечить совместно с продуктовыми командами непрерывное улучшение метрик надежности в продуктах кластера
организовать процесс postmortem по критическим инцидентам с продуктами кластера и процесс непрерывного улучшения наблюдаемости продуктов кластера
обеспечить прохождение продуктовых команд кластера оценки технологической зрелости по обеспечению надежности
реализовать совместно с продуктовыми командами определение и обеспечение SLO с точки зрения пользователя для ключевых бизнес-сервисов продуктов, организацию и контроль взаимодействия со смежниками по прозрачным OLA.

Смотреть ещё вакансии

Специалист по информационной безопасности

148

Специалист по информационной безопасности удаленно

Специалист по информационной безопасности на полный рабочий день удаленно

Специалист по информационной безопасности на полный рабочий день

132