Оптимизация отказоустойчивости инфраструктуры, миграция и настройка мониторинга

Местоположение и тип занятости

Неполный рабочий деньМожно удаленно

Компания

Сервис, который помогает любителям спорта найти, выбрать и записаться на спортивные занятия или площадки

Описание вакансии

О компании и команде

FindSport.ru – это платформа, объединяющая любителей спорта. Сервис помогает пользователям находить спортивные мероприятия, тренировки и площадки поблизости, а также организовывать собственные события. Мы стремимся сделать нашу платформу максимально стабильной, масштабируемой и удобной для пользователей.

Ожидания от кандидата

Мы ищем опытного DevOps-инженера для улучшения отказоустойчивости нашей системы, настройки репликаций, мониторинга и миграции с текущего облачного провайдера. 

Наши ожидания:

  • Опыт работы с Docker Swarm, MySQL, Prometheus, Grafana.
  • Знания и опыт настройки облачной инфраструктуры.
  • Умение оптимизировать и повышать отказоустойчивость системы.
  • Понимание работы Redis, RabbitMQ и связанных технологий.

Задачи:

  1. Миграция инфраструктуры:
    • Перенос серверов с Yandex.Cloud на более стабильного и менее дорогостоящего провайдера.
    • Настройка возможности быстрого переключения трафика и восстановления ресурсов при сбоях новой облачной зоны.
  2. Оптимизация базы данных:
    • Настройка репликации MySQL для повышения отказоустойчивости.
    • Оптимизация конфигурации MySQL для предотвращения подвисаний при нагрузке.
  3. Мониторинг и алерты:
    • Настройка логирования и мониторинга с использованием современных инструментов (Grafana, Loki, Prometheus или аналоги).
    • Конфигурация алертов для критических ситуаций (например, высокая нагрузка, ошибки сервисов, нехватка места и др.).
  4. Устойчивость сервисов:
    • Внедрение супервизоров и healthchecks для docker-сервисов, чтобы оперативно обнаруживать и устранять их падения.
  5. Консультации и доработка:
    • Консультации по использованию Redis и RabbitMQ: настройка бэкапов, конфигурация внутри Docker и оптимизация под текущие задачи.

Итого: нам необходим переезд на нового провайдера с минимальными простоями, отказоустойчивая система с правильно настроенной репликацией, мониторингом и алертами, а также повышенная стабильность всех сервисов.

Условия работы

Мы ищем специалиста для удаленной работы, чтобы поэтапно решать наши задачи. Предпочтительно сотрудничество с ИП или самозанятым. Важна прозрачная коммуникация и готовность к регулярным обсуждениям прогресса.

Смотреть ещё вакансии