Senior/ Principal SRE-инженер в команду трафика Core Infrastructure
Зарплата
Требования
Местоположение и тип занятости
Компания
Описание вакансии
О компании и команде
Группа управления трафиком, является важной частью команды NOCdev и помогает пользователям и сервисам находить друг друга.
Для этого у нас есть третий и четвертый уровни модели OSI, инфраструктура DNS, динамическая маршрутизация и кое-что ещё. В работе мы используем bare metal-серверы, виртуализацию в собственных облачных системах и планируем интеграцию с внешними облачными провайдерами. Нагрузка на наши системы высока и постоянно увеличивается, а требования к надёжности таковы, что дальше им расти уже некуда.
Мы ищем человека, готового бесстрашно искать в самых укромных уголках системы и софта «дополнительные 2% производительности». Человека, который сможет соединить несколько систем для управления разными компонентами инфраструктуры в единый комплекс. Того, кто не верит в доступность систем 99.99, но имеет собственные идеи о том, как добавить в этот ряд ещё одну или две девятки.
Ожидания от кандидата
Какие задачи вас ждут:
- бесшовно переносить систему балансировки нагрузки на новый data plane;
- строить отчуждаемую инфраструктуру управления DNS и балансировкой;
- интегрировать внешние облачные системы DNS и NLB с внутренними системами управления;
- повышать скорость и надёжность работы разных подсистем в DNS и балансировке трафика.
Мы ждём, что вы:
- хорошо понимаете устройство Linux и современных систем виртуализации и контейнеризации;
- разбираетесь в архитектуре современных веб-сервисов и понимаете их требования к инфраструктуре;
- имеете опыт отладки, работали с perf и gdb;
- имеете опыт разработки на одном из языков: Python, Go или C++;
- знакомы с устройством сетевого стека Linux;
- работали с протоколом IPv6;
- имеете опыт эксплуатации сервисов 24х7.
Будет плюсом, если вы:
- умеете работать с bpftool и в целом понимаете работу BPF;
- имеете опыт проектирования и разработки новых сервисов;
- понимаете процессы инцидент-менеджмента SLA, SLO, SLI и занимались их организацией;
- имеете лидерские качества и опыт руководства командой;
- знаете английский язык на уровне Intermediate и выше.
Условия работы
- Удобный график работы;
- Красивые и технологичные офисы с зонами для работы и отдыха, спортзалами, йога-классами, массажными кабинетами и не только
- Расширенная медицинская страховка:
Бонусы
Высокий совокупный доход: премии каждые полгода для всех, кто успешно прошёл ревью
Жилищная программа: после года работы при соответствии правилам программы можно получить заём с льготной ставкой на покупку жилья или ремонт
Компенсация питания: на бейджике сотрудника есть ежедневный лимит, который можно тратить на еду и напитки в столовых офисов, кофейнях и ресторанах поблизости
Скидки от партнёров: бейджик Яндекса помогает экономить в самых разных местах: от спортивных магазинов и отелей до груминг-салонов и образовательных курсов
Стоматология — плановые процедуры, профессиональная чистка и приёмы стоматолога-ортодонта
Через год работы можно сделать лазерную коррекцию зрения, после 2 лет в ДМС входит ведение беременности и роды
Компенсируем 80% стоимости ДМС для супругов и детей
9 видов чекапов, телемедицина 24/7, лечение критических заболеваний
Психотерапия — компенсация сессий в «Ясно» и Яндекс Здоровье, психотерапевты в клиниках и офисах
- Возможности для роста:
Есть всё, чтобы учиться: внутренняя платформа с 100+ курсами, менторство и программы для руководителей
Оплачиваем участие в профильных конференциях и помогаем подготовиться к публичным выступлениям
Если для рабочих задач нужен иностранный язык, организуем обучение и оплатим 50% стоимости
Дополнительные инструкции
1 — Предварительное интервью (60 минут)
На этом этапе могут спросить об опыте и технологиях, задать вопросы про эксплуатацию сервисов, про Linux, а также попросят решить задачку с кодом.
2 — Консоль и траблшутинг (60 минут)
Здесь проверяем на практике знания и навыки работы с ОС Linux и сетью, навыки использования стандартных консольных инструментов и утилит и навыки поиска часто возникающих проблем при эксплуатации сервисов.
3 — Интервью с кейсами по SRE/DevOps-части (90 минут)
Внутри: написание кода по простой алгоритмической задаче, траблшутинг процесса или сервиса, однострочник по логу.