Я — Lead Data Engineer с более чем 7-летним опытом в области обработки и анализа данных. В своей карьере я успешно руководил командами в таких компаниях, как билайн и X5 Retail Group, где занимался формированием технологических стратегий и оптимизацией процессов обработки данных. Я активно занимаюсь менторингом, обучая сотрудников использованию технологий, таких как Apache Airflow, Spark, Hadoop и провожу технические интервью для найма новых специалистов. Преподаю в NewProLab. В качестве хобби увлекаюсь работой с большими языковыми моделями (LLM). Как Lead Data Engineer, я отвечаю за разработку и внедрение архитектуры данных, обеспечение качества и безопасности данных, а также за стратегическое планирование и управление командой для достижения бизнес-целей организации.
Был спикером в SmartData https://2020.smartdataconf.ru/2020/spb/people/
Публикую статьи на habr https://habr.com/ru/users/confident_action/articles/
Чем занимался:
• Формирование технологической стратегии развития Data Engineering практик и технологий внутри блока B2C
• Продвигал технологические принципы и стандарты чаптера DE
• Курировал технологические продукты CVM
• Распространял экспертизу Big Data на все продукты блока B2C
• Курировал модернизацию платформы DMP
Работаю на проекте x5 Retail Group
Чем приходилось заниматься:
• Управление беклогом, приоритезация, контроль задач;
• Формирование стратегии развития платформы;
• Участие в построении архитектуры интеграции бизнес-проектов по обработке данных на платформе;
• Оптимизация ETL процессов;
• Проведение работ по миграции на новые версии Airflow, Clickhouse;
• Формирование требований закупки серверов платформы;
• L3 поддержка платформы 24x7;
• Организация мониторингов загрузки и контроля доставки данных;
• Обучение L2 поддержки;
• Проведение технических интервью;
• Обучение сотрудников использованию Airflow.
Используемые технологии:
• Lang: Python;
• ETL \ ELT: Hive, Spark Core, Spark SQL;
• DB: Clickhouse;
• Hadoop stack;
• Hortonworks distribution (HDP);
• Workflow manager: Airflow.
Работал на проекте x5 Retail Group
Что было сделано:
• Ускорили создание отчетов на 75% за счет переписывания запросов в SparkSQL, добавления предагрегатов и изменения структуры таблиц;
• Ускорена доставка отчетов в Clickhouse на 57%.
• Оптимизированы процессы ETL, что снизило количество сбоев на 93,55%;
• Разработаны новые подходы и функции Airflow для лучшей работы с метаданными Hive и HDFS;
• Проведены технические собеседования, приняты на работу новые сотрудники, ведущий тренер по внутреннему обучению Apache Airflow.
Используемые технологии:
• Lang: Python;
• ETL \ ELT: Hive, Spark Core, Spark SQL;
• DB: Clickhouse;
• Hadoop stack;
• Hortonworks distribution (HDP);
• Workflow manager: Airflow.
Что было сделано:
• Внедрено хранилище HashiCorp Vault HA в банке;
• Разработал конвейер CICD для тестирования, создания и развертывания DAG Airflow;
• Повышена отказоустойчивость и скорость работы микросервисов от Docker до Openshift на 1260% за счет перевода его из однопоточного режима в многопоточный;
• Созданы микросервисы на Java для обмена информацией между фронтальной и серверной частью моделей Data Science.
Используемые технологии:
• Lang: Java;
• Containerization: Docker, OpenShift;
• CICD: TeamCity;
• Messaging Queue: Kafka.
Что было сделано:
• Настроен ETL для доставки данных из более чем 20 источников с нуля менее чем за 6 месяцев;
• Проведение научно-исследовательских проектов по внедрению новых технологий в команду (GreenPlum, Airflow);
• Создано более 30 витрин данных для бизнес-клиентов;
• Поддержание работоспособности кластера Hadoop;
• С нуля разработал конвейеры CICD для серверов Hadoop;
• Улучшены текущие библиотеки Hive, созданы новые функции UDF;
• Онбординг и менторинг новых коллег.
Используемые технологии:
• Lang: Python, Scala, Java, Shell;
• ETL \ ELT: Hive, Spark (SQL), Streamline, NIFI;
• Export \ Import of data: Sqoop, Spark, Nifi, Shell;
• NoSQL: HBase;
• Hadoop stack;
• Hortonworks distribution (HDP / HDF);
• Workflow manager: Oozie, Airflow.
Чем приходилось заниматься:
• участвовал в переговорах с заказчиком;
• оценка исходных данных для последующего экспорта в DataLake;
• участвовал в проектировании архитектуры высоконагруженных ELT-процессов;
• занимался мониторингом и оптимизацией процессов загрузки и конвертации данных;
• подготовленные данные для моделей машинного обучения;
• протестированы новые инструменты;
• дополнил слияние и поделился новыми знаниями с товарищами по команде;
• обучил новых сотрудников работе с используемыми технологиями;
• запустили в производство модели ML;
• Онбординг и менторинг новых коллег.
Используемые технологии:
• PL: Python, Java, Shell;
• ETL\ELT: Hive, Spark(SQL), NIFI;
• Export\Import data: Sqoop, Spark, Nifi, Shell;
• Hadoop stack;
• distribution kit Hortonworks(HDP/HDF);
• workflow manager: Oozie, Airflow.