Site Reliability Engineer (SRE) в команду ETL-платформы
Требования
Местоположение и тип занятости
Компания
Описание вакансии
О компании и команде
Мы разрабатываем и поддерживаем ETL-платформу и высоконагруженную систему, которая генерирует критически важные для бизнеса документы.
Наша автоматизированная инфраструктура генерирует более 5 млн документов в день, обслуживая 100+ бизнес-подразделений и процессов компании. С помощью надежной системы мы можем предоставлять услуги клиентам Т-Банка на высоком уровне и без сбоев.
Один из ключевых инструментов — система сбора метрик TMeter. Она позволяет отслеживать важные показатели производительности и оперативно реагировать на отклонения.
Команда работает по методологии Agile, применяя все нужные практики и церемонии. Технологии, которые мы используем, помогают нам обеспечивать гибкость и надежность работы системы.
Наш стек: Java, Kotlin, S3, Postgres, Kubernetes, Gitlab и Groovy.
Ожидания от кандидата
* Помогать командам определять SLO для сервисов, стандартные SLO на базе RED-метрик, поддерживать библиотеки для сбора метрик
* Поддерживать единую страницу доступности сервисов на основе SLO и анализировать инциденты
* Развивать культуру алертинга, обеспечивать автоматическую доставку уведомлений через разные каналы, анализировать время реакции, уровень шума и MTTR
* Изучать постмортемы, вести статистику по простоям и формировать бюджеты на простои
* Проводить обучение по восстановлению от сбоев и отказоустойчивому дизайну, консультировать команды
* Поддерживать инфраструктуру и логику доставки на прод, развивать инструменты для B/G, Canary, автоотката по метрикам и миграций, собирать статистику по доставке
* Организовывать симуляции отказов и анализировать их результаты
* Разрабатывать и продвигать отказоустойчивые архитектуры, например разделение ЦОДов, и участвовать в проектировании на ранних стадиях
* Прогнозировать потребности в оборудовании, разрабатывать инструменты для оценки нагрузки на сервисы
* Управлять фича-тоглингом и собирать статистику по использованию фич
* Унифицировать формат логов, развивать сервисы для их агрегации и долговременного хранения
* Обеспечивать примитивы для разных стеков
* Внедрять общие принципы отказоустойчивости: circuit breakers, service mesh, fallback
* Обеспечивать унифицированное выставление сервисов наружу, балансировку нагрузки и защиту от атак
* Собирать данные по времени, которое было затрачено на OPS, — для баланса с разработкой
Условия работы
* Работу в офисе у метро «Белорусская». График работы — гибридный
* Платформу обучения и развития «Апгрейд». Курсы, тренинги, вебинары и базы знаний. Поддержку менторов и наставников, помощь в поиске точек роста и карьерном развитии
* Комплексную программу заботы о здоровье. Оформим полис ДМС с широким покрытием и страховку от несчастных случаев. Предложим льготные условия страхования для ваших близких
* Бесплатный фитнес-зал в офисе или частичную компенсацию затрат на спорт. В фитнес-зале оборудованы зоны по разным направлениям. Можно заниматься самостоятельно или присоединиться к групповым занятиям с тренером
* Возможность работы в аккредитованной ИТ-компании
* Бесплатные завтраки и обеды в нашем кафе. А если захотите перекусить, на каждом этаже есть кухня с чаем, кофе и фруктами
* Линейку льготных тарифов на продукты Т-Банка
* Well-being-программу, которая помогает улучшить психологическое и физическое здоровье, а также разобраться с юридическими и финансовыми вопросами
* Три дополнительных дня отпуска в год
* Достойную зарплату — обсудим ее на собеседовании