• Оркестрация на Airflow, создание DAG'ов, в том числе с сенсорами
• Владею Apache NiFi
• Знаю Python
• Умею писать SQL-запросы (DDL, DML, оконные функции, CTE, план выполнения запроса, json processing)
• Владею процедурным SQL
• Умею работать с Docker
• Преобразование данных, обработка данных на SQL и Python
• Знаю pyspark для целей подготовки данных для машинного обучения и его реализации
• Поверхностно знаком с big data (Hadoop, HDFS, Apache Impala, Hive)
• Знаком с машинным обучением (pandas, numpy, scikit learn) и методами EDA на Python
Проекты:
• Курсовой проект "Проектирование и разработка базы данных для аэропорта"
• Курсовой проект "Система предиктивного анализа ордеров на Московской бирже для выявления ценовых манипуляций и выявления методов противодейтсвия"
• Дипломный проект "Анализ проведения ценовых манипуляций на фондовой бирже и разработка информационно-защитной системы"
• Проект "Разработка агрегатора предложений баров и ресторанов с рекомендательным сервисом"
• Участник хакатона Hack Moscow v3 2019. Я в команде разрабатывал архитектуру продукта и взаимодействие программы с HERE API.
• Разработка ETL процессов по преобразованию, загрузке и актуализации данных в Apache NiFi
• Разработка процедур и потоков по преобразованию и загрузке данных в PostgreSQL
• Проектирование и разработка витрин данных, хранилищ, связей в БД
• Создание OLAP-кубов
• Создание витрин данных под нужды отчетности и их актуализация
• Предоставление экспертной поддержки внутренним потребителям по вопросам, связанным с использованием данных
Результаты. На финальной стадии проект по загрузке сырых данных ФНС в BI-систему с помощью Apache NiFi для нужд Минэкономразвития. Создание в PostgreSQL OLAP-кубов для построения визуализированной отчетности по данным ФНС в Форсайт. Аналитическая платформа. В одиночку веду весь проект, начиная от анализа сырых данных и заканчивая настройкой BI-инструментов. С нуля изучен почти весь рабочий стек (кроме PostgreSQL)
• Анализ требований, подготовка исходных структур и данных
• Создание витрин данных под нужды отчетности и их актуализация
• Взаимодействие с разными отделами и командами разработки
• Разработка хранилищ данных, витрин, процедур, связей в БД (PostgreSQL)
• Подготовка проектной и технической документаций (Confluence)
• Разработка ETL-процессов по загрузке, преобразованию и актуализации данных в Airflow
• Помощь в разработке отчета на Tableau
Результаты. Окончен проект НЛМК (Ново-липецкий металлургический комбинат) по построению отчетов. Настроены ETL потоки по обработке, обогащению и преобразованию сырых данных для построения отчетов в Tableau. Я в команде отвечал за слои данных в PostgreSQL, разработку витрин и написание потоков в Airflow. С нуля изучил Airflow во время проекта на среднем уровне (знаю сенсоры)
В рамках первых трех месяцев обучения изучил работал на Pentaho DI, изучил Docker, интеграцию Python и SQL (библиотеки SQLAlchemy, petl)
Специализация "Анализ данных в бизнесе"
Имею гибкие организаторские навыки, являюсь членом представительного органа студенческого самоуправления ВШЭ, Студенческого Актива Бизнес-информатики (организация меропрятий), а также участник флагманского проекта по адаптации первокурсников