Выстраивание масштабируемых и переиспользуемых процессов разработки и доставки приложений на различные среды, совместно с командами разработки.
Предоставление инфраструктурных сервисов (мониторинг, статус по безопасности и проблемам конфигурации, алертинг, трейсинг, логирование, управление конфигурациями и секретами) другим командам без необходимости привлечения devops специалистов.
Анализ затрат на облачную инфраструктуру и оптимизация текущих решений.
Планирование и закрытие технического долга на стыке взаимодействия команд разработки и operations.
Продвижение лучших практик в организации инфраструктурных конфигураций в командах разработки.
Работа в команде с 2мя другими devops в роли лида функции, помощь в их развитии, проведение 1to1 и еженедельных митингов, "лидирование" junior devops.
Взаимодействие с командой для определения направлений роста сотрудников, встраивание процесса обучения в рабочие процессы, и контроль за результатом.
Поддержка нескольких групп разработчиков ( фронтед \ бекенд ).
Помощь в организации процесса доставки продукта "от репозитория до прода" с минимальным вовлечением ops/devops.
Совместная с разработчиками организация quality gates/прцоесса initial release, чтобы продукт доезжающий до прода был максимально работоспособным, и со всем необходимым минимальным набором operational features.
Унификация подходов и процессов к деплою различных приложений, написание примеров (boilerplate charts/CI workflows) и обучение разработчиков.
Поддержка стека мониторинга (prometheus + grafana + alertmanager + amixr) и нотификация разработчиков о проблемах по различным схемам.
Организация сбора статистики по проблемам конфигурации(polaris + custom checks) и уязвимостям (trivy + starboard) в ворклоадах кластера, предоставление дашбордов со статусами.
Написание тестов для чартов с использованием rego / conftest / kubeval / helm, и встраивание их в CI пайплайн.
Опыт миграции k8s 1.13 -> 1.18. Helm 2 -> 3.
Предоставление "удобных" инструментов конфигурации для разработчиков, путём написания мини-операторов для k8s на базе kopf.
Небольшой опыт работы с k8s HPA/node autoscaler.
Опыт работы с terraform для развертывания как инфраструктуры (Yandex Cloud) так и конфигурации специфичных сервисов (k8s/CircleCI/harbor)
Поддержка группы инженеров аналитиков/дата сайнтистов.
Поддержка Hadoop стэка - HDFS, HBase, Flume, Kafka, Storm, YARN, Hive, ZK, Spark, Cassandra.
Предоставление удобных инструментов для доставки сервисов в production на базе Docker.
Внедрение Nomad как job scheduler для инфраструктурных задач.
Перевод части кода SCM Puppet c версии 3.4 до 4.4 и далее до 5.x.
Поддержка кластера Elasticsearch, проведение нагрузочных тестов и миграция на SSD storage.
Изучение и тестирование различных software defined storage (ceph/swift) для хранения большого количества контента (PB).
Внедрение и поддержка удобных и централизованных инструментов для предоставления отчетов партнерам (redash/grafana)
Доработка и поддержка комплексной системы мониторинга, с возможностью удобного и простого использования ее разработчиками (graphite/grafana/statsite/icinga2/elasticsearch)
Организация централизованного сбора логов от приложений запущенных в docker.
Построение единообразных пайплайнов сборки проектов для разных команд. Построение контрактов с командами, позволяющих им вести разработку и доставку своих сервисов без блокировки operations отделом.
Совместный troubleshooting приложений с разработчиками и поиск узких мест.
Testing and deploying works
Writing technical and administrative documents.
Researching of high-load architectures and construction of fault-tolerance solutions
Consultation developers on technical issues and possible technologies to solve problems
Introduction of technologies for the implementation of fault tolerance (CARP, load-balancing, database replication)