Последние 5 лет я занимаюсь обработкой данных:
- построением DWH/DataLake
- сбором и обработкой данных из различных источников (ETL, ELT)
- разработкой стриминговых приложений.
Имею опыт использования Hadoop, облака Azure.
Интересует развитие в Big Data
На текущем месте работы поучаствовал в двух проектах:
1) Разработка КХД на Azure Synapse:
Azure Synapse, Data Factory, Blob Storage, KeyVault, PySpark
2) C января 2021 года перевод DWH с Azure на Hadoop:
Перенос основных данных из Azure в Hadoop (Hive tables)
Написание преобразований базовых слоев данных, создание витрин на Apache Spark (scala)
Написание unit-тестов (ScalaTest)
Создание streaming приложений Spark Structured Streaming
Работа с noSql базами данных: HBase, Cassandra
Оркестрация пайплайнов в Jenkins, Airflow
Базовый опыт разработки многопоточных приложений
1. Разработка хранилищ данных на MS SQL Server:
Разработка базовых слоев DWH, витрин, таблицу, представлений,
процедур, индексов, оптимизация запросов
Разработка ETL процессов на базе SSIS
Базовые преобразования в Apache Spark (pySpark DF API)
2. Разработка отчетности на базе Power BI, SSRS
Разработка отчетности на базе Excel, Power BI
Написание SQL запросов для ad-hoc аналитики (Oracle)
Создание витрин данных в MS Sql
Автоматизация рассылки отчетности через python
Бакалавриат: Строительство
Магистратура: Управление строительными процессами
Решил порядка 150 задач на sql на темы:
джойны, агрегации, оконные функции, табличные выражение, модификация данных
Ссылка на сертификат:
https://www.sql-ex.ru/certification/confirm.php?cert_id=A19407012