Лидирующий поставщик на рынке информационных технологий и консалтинговых услуг
Ярославль · От 1000 до 5000 сотрудников
Инжинер
Май 2015 — Май 2017 (2 года и 1 месяц)
- Разработка и внедрение распределенных вычислительных алгоритмов для оффлайн аналитики больших массивов данных.
Цель: Обработка данных с iptv приставок пользователей (200гб в день), построение профиля абонента, построение рейтингов теле-смотрения и др..
Результат: построена и развивается система аналитики в окружении Hadoop и дальнейшая загрузка агрегированных данных в Oracle. Обработка данных в системе построена на map-reduce приложениях реализованных с помощью Java. Для управления потоками используется диспетчер потоков Oozie.
Обязанности: реализация map-reduce приложений, настройка hive для доступа к данным с помощью SQL. Настройка Oozie.
Стек технологий: Apache Hadoop (MapReduce, Hive, Oozie), Java.
Роль на проекте: Разработчик
- Разработка и внедрение системы онлайн аналитики данных, отвечающей за обработку десятков тысяч событий в секунду.
Цель: Интеллектуальный мониторинг потока данных с iptv приставок пользователей направленный на целевой маркетинг.
Результат: с помощью стриминговых технологий Spark в окружении Hadoop была реализована система near-realtime анализа потоковых данных с активностью пользователей. Система интегрирована с БД oracle при помощи технологий Kafka. Spark-streaming приложения реализованы с помощью Java.
Обязанности: реализация spark-streaming приложений системы, разработка планировщика задач.
Стек технологий: Apache Flume, Kafka, Spark, Spark Streaming, Java.
Роль на проекте: Разработчик
- Разработка ETL процессов, построение хранилища данных.
Обязанности: Построение агрегатов, стейджингов, витрин. Подготовка данных для использования в Oracle BI конечным пользователем.
Стек технологий: IBM DataStage, Oracle, SQL/PLSQL.
Роль на проекте: Разработчик
- Разработка системы сигментации пользователей на основе их активности(Event log).
Цель: Выявление групп пользователей со схожими интересами.
Результат: Реализованная система позволяет оценивать и прогнозировать интересы аудитории. Обработка данных в системе построена с помощью технологий Spark реализованных на Python. Произведена интеграция с веб интерфейсом системы и окружением Hadoop.
Обязанности: разработка Spark приложений системы, планировщика задач системы, подбор оптимального алгоритма для сегментации.
Стек технологий: Apache Spark, Spark mllib, Spark GraphX, Python.
Роль на проекте: Разработчик.