Data Engineer

Местоположение и тип занятости

Москва

Компания

Место встречи лучших

Описание вакансии

О компании и команде

Команда DWH агрегирует в себе накопленную экспертизу и лучшие практики холдинга в области построения хранилищ данных и аналитических приложений. Мы превращаем информационный хаос в чётко организованную систему, которая позволяет собирать, обрабатывать и анализировать любые объёмы данных. В нашей команде убеждены, что системы хранилищ данных должны максимально помогать людям — автоматизировать рутинные задачи, собирать и анализировать сырые данные, подготавливать почву для удобного и аргументированного принятия решений.

Мы ищем BigData-инженера, готового принять активное участие в разработке одного из крупнейших хранилищ группы компании: десятки петабайт данных, количество узлов кластера более 400, ежедневный прирост информации составляет десятки терабайт. В хранилище собрана информация большинства ключевых бизнес-юнитов компании, которая описывает поведение пользователей рунета: события посещений сайтов, клики/показы рекламы, использование мобильных приложений, профили соцсетей пользователя, действия пользователей в соцсетях и их публичные сообщения и т. д. Всё это позволяет составить достаточно полную картину поведения пользователя во всех сервисах VK и строить на полученных данных сложные математические модели.

Ожидания от кандидата

Задачи:

  • участие в роли BigData Engineer в проекте построения системы обработки и хранения разнородной информации из различных бизнес-юнитов компании на базе Hadoop (BigData DWH);
  • исследование большого объёма необработанных данных, накопленных в компании;
  • построение и оптимизация нетривиальных ETL-процессов обработки больших данных, участие в построении процессов потребления данных на всех этапах, их трансформации от появления информации в конкретном бизнес-юните до монетизации полученных знаний;
  • взаимодействие с командой Data Scientist и совместная реализация стабильного расчёта математических моделей;
  • поддержка и модификация созданного решения, ответственность за доступность сервиса для внутренних потребителей и корректность предоставляемых для принятия решений данных.

Требования:

  • не менее года релевантного опыта работы;
  • опыт работы с большими объёмами данных, понимание стека технологий Hadoop, глубокое знание Spark или Hive (плюсом будет знание Java, Scala в контексте обработки больших данных);
  • опыт организации ETL-процессов обработки данных (плюсом будет знание code-driven ETL Luigi, Airflow);
  • знание классических алгоритмов и структур данных (плюсом будет опыт разработки на Python);
  • знания в области теории обработки и хранения информации;
  • ссылки на публичные репозитории, статьи с примерами работы приветствуются.

Условия работы

  • возможность создавать продукты и сервисы, которые меняют к лучшему жизнь миллионов пользователей;
  • амбициозные задачи, масштабные проекты и возможности для профессионального роста;
  • совместные интересы и увлечения: помогаем раскрывать таланты и отлично проводить свободное время;
  • работа в команде профессионалов из разных сфер, которые всегда готовы поделиться опытом;
  • программа благополучия: заботимся о здоровье и хорошем самочувствии сотрудников;
  • компенсация питания в кафе и ресторанах рядом с офисами — 800 рублей в день;
  • компенсация спортивных активностей — 30 000 рублей в год в регионах и 35 000 рублей в год в Москве и в Санкт-Петербурге;
  • 16 корпоративных команд по 12 видам спорта.

Присоединяйтесь к нашей команде, чтобы создавать сервисы и технологии, которые улучшают качество жизни миллионов людей.​​​​​

Смотреть ещё вакансии