👀 Дизайнеры, с какой командой вы мэтчитесь по вайбам? Проверяйте на Вайб-чеке→ vibe.habr.com

SRE Cluster Lead/Руководитель направления

Местоположение и тип занятости

Полный рабочий деньМожно удаленно

Компания

Крупнейшая телекоммуникационная и ведущая ИТ-компания

Описание вакансии

О компании и команде

МТС – это мультисервисная цифровая экосистема. Мы создаем и развиваем сервисы в сфере мобильной связи, больших данных, искусственного интеллекта, облачного хранения, медиа и финансов – все они делают жизнь людей проще и интереснее.

Миссия: организация практик сопровождения, SRE, обеспечения надежности в кластере "Корпоративные сервисы", в котором объединены команды, создающие продукты для сотрудников и внутренних процессов группы компаний МТС.

Ожидания от кандидата

  • опыт работы на позиции лидера практики SRE / руководителя эксплуатации в крупных технологических компаниях
  • опыт организации процессов эксплуатации, сопровождения и обеспечения надежности в группе продуктовых команд
  • знание и опыт построения отказоустойчивых и наблюдаемых (observable) систем, соответствующих технологических инструментов
  • опыт разработки SLA/SLI/SLO и знание принципов их формирования
  • практический опыт локализации проблем и устранения инцидентов в больших и сложных системах
  • опыт внедрения практик и инструментов SRE и DevOps, встраивания процессов / процедур обеспечения надежности в эксплуатационные процессы
  • опыт формирования стратегий и дорожных карт по своему направлению.

Условия работы

  • профессиональные гильдии инженеров по направлениям, чтобы поддерживать друг друга и обмениваться опытом
  • внутреннюю площадку TechTalks для обмена опытом, дискуссий, развития навыков самопрезентации
  • участие во внешних IT конференциях. Мы выступаем на HighLoad++, DataFest, Mobius, Test Driven Conf, Joker, DevOps, Матемаркетинг и даже проводим собственную конференцию по архитектуре Hello, conference!
  • полезные курсы и вебинары в корпоративном университете и электронные библиотеки.

Дополнительные инструкции

Что нужно делать

  • обеспечить выполнение технологической стратегии по направлению надежности, её уточнение и адаптация под специфику продуктов кластера
  • внедрить практики SRE на уровне трайбов и продуктов
  • организовать формирование планов и мероприятий по обеспечению непрерывности (DRP/DRT, катастрофоустойчивость, подтверждение заявленных RTO/RPO)
  • обеспечить совместно с продуктовыми командами непрерывное улучшение метрик надежности в продуктах кластера
  • организовать процесс postmortem по критическим инцидентам с продуктами кластера и процесс непрерывного улучшения наблюдаемости продуктов кластера
  • обеспечить прохождение продуктовых команд кластера оценки технологической зрелости по обеспечению надежности
  • реализовать совместно с продуктовыми командами определение и обеспечение SLO с точки зрения пользователя для ключевых бизнес-сервисов продуктов, организацию и контроль взаимодействия со смежниками по прозрачным OLA.