Большое желание развиваться в области хранения, обработки и визуализации данных.
Использованные ресурсы и полученные знания при подготовке:
- решение задач на sql-ex.com
- знание основ оптимизации запросов (индексы, партиционирование, статистика) и аналитических функций
- умение работать с основными объектами СУБД (таблицы, хранимые процедуры и функции, view, триггеры)
- понимание концепций ХД и ETL процессов (построение потоков в MS SSIS)
- знакомство с базовыми понятиями и устройством MPP систем
- умение работать с Git
Люблю учиться и повышать свою экспертизу, узнавая новое. Нацелена на результат и люблю углубляться в детали.
1) Интеграция источников данных в Data Lake на платформах Yandex Cloud и Azure.
2) Обработка и анализ данных с использованием Apache Spark: разработка витрин данных с помощью PySpark, DataFrame API, и Spark SQL; реализация потоковой обработки данных.
3) Оптимизация производительности витрин данных: настройка и улучшение Spark-приложений для повышения скорости обработки и уменьшения затрат ресурсов.
4) Глубокие знания в Apache Airflow: разработка ДАГов со сложной логикой, использование сенсоров, выбор оптимального решения для использования зависимостей между ДАГами;
5) Проектирование и реализация data pipeline в Azure Data Factory: интеграция данных из различных источников и построение автоматизированных процессов для создания витрин данных.
6) Разработка решений на Python: реализация REST API-запросов
7) Код-ревью и поддержка командных стандартов разработки: проверка и улучшение кода коллег для обеспечения качества, читаемости и соблюдения лучших практик.
Data Engineer
1) Построение различных слоев данных в Greenplum (stg, ods, dm), включая создание эффективных схем хранения для аналитики
2) Разработка сложных SQL-запросов с использованием оконных функций, динамического SQL и курсоров для решения нестандартных задач анализа и обработки данных.
3) Оптимизация SQL-запросов в Greenplum: настройка дистрибуции, партиционирования и плана запросов для повышения производительности и сокращения времени выполнения операций
4) Разработка решений на Python: реализация REST API-запросов, обработка и парсинг данных в формате JSON, XML, и CSV.
5) Работа с инструментами: Airflow, Kafka, Nifi, Google BigQuery