Техлид проекта по нагрузочному тестированию. Автоматизация (пишу и поддерживаю несколько инструментов на Golang, Gitlab components, bash scripts), выполнение и анализ нагрузочных тестирований (k6 с кучей накрученных пайплайнов и скриптов для максимальной приближенности тестов к пользовательскому трафику), постановка/выполнение задач на команды инфраструктуры и разработки на повышение надежности сервисов, определение критичных пользовательских путей, внедрение SLA/SLO/SLI/Error Budget для критичных сервисов, On Call дежурства (k8s, CI/CD, services, etc troubleshooting), анализ инцидентов в production окружении
Был единственным DevOps в компании, настраивал dev и prod окружения десятков проектов (Gitlab CI, nginx, DNS, мониторинг, docker-compose, первичная настройка серверов). В самом начале работы понял, что проектов несколько десятков и почти все они имеют свой личный CI пайплайн, метод деплоя и контейнеры одним проектов мешают друг другу, что сильно увеличивает процент времени, затрачиваемый на рутину, так же отстуствовал мониторинг и алертинг сервисов, о падении сервиса на prod/dev окружения часто приходилось узнавать от заказчика/разработчика/проджекта. За несколько месяцев шаблонизировал палйплайн в Gitlab и более 80% проектов стали иметь один понятный, четко задокументированный пайплайн, который легко траблшутить и настраивать для новых сервисов. Настройка сервера для нового сервиса (создание папок, nginx конфигурации, создание и конфигурация gitlab-runner) была полностью оформлена в виде ansible ролей, которые запускались через пайплайны в новом репозиторий для инфраструктуры. Для всех сервисов был сделан мониторинг и алертинг на аптайм (uptime kuma), мониторинг и алертинг на критические метрики производительности (CPU, RAM, Uptime, free disk space) был реализован через New Relic, месячный SLO uptime на dev окружении увеличился с 60% до 90%
Тема магистерской диссертации:
"Development of automation chaos engineering platform for distributed information system's weaknesses detection"