Big Data Engineer

13 ноября 2020

Требования

Разработка ПО, Средний (Middle) • Apache Spark • NoSQL • Apache Hadoop • Apache Kafka • Oracle

Местоположение и тип занятости

Санкт-Петербург • Полный рабочий день

Компания

Сбер

Крупнейшая цифровая платформа. Технобренд, объединяющий лучшие мировые практики и самый современный стек

Описание вакансии

Условия работы

Участие в проектах, направленных на построение и оптимизацию процессов проведения кампаний продаж корпоративным клиентам Банка и компаний Экосистемы

Анализ требований к разработке аналитических витрин и дата-пайплайнов в рамках создания data science решений на платформе больших данных

Поддержание времени жизни и мониторинг консистентности данных, хранимых в DWH среде.

Прогнозирование вероятности потери данных в связи с деградацией сервисов динамической инфраструктуры и принятие мер по предотвращению рисков деградации data-lake хранилищ (обязательное знание различных методик партицирования, суб-партицирования, паркетирования и асинхронного стриминга данных)

Разработка, тестирование и вывод в Пром витрин и пайплайнов на стеке Hadoop

Требования к опыту:

Опыт работы разработчиком по направлению развития платформы больших данных от 2х лет

Опыт пакетной разработки на Oracle и оптимизации sql запросов под hi-load

Опыт в оптимизации многопоточных PL-SQL запросов как на стороне Oracle сервера, так и с использованием Hive-SQL на стороне Hadoop like динамических сред. Опыт инкорпорации и вызова java UDF внутри SQL like среды будет преимуществом

Умение оптимизировать hi-load запросы под Hadoop среды (знание методик map-reduce/caching/broadcasting/mappartitioning)

Опыт работы от 2 лет с Big Data стеком (Spark/PySpark, Hive, Impala, YARN, Sqoop, Kafka)

Опыт прототипирования Big-data процессов с использованием Scala будет преимуществом

Опыт работы от 2 лет с реляционными БД (Oracle, Teradata и т.п.)

Опыт работы как минимум с одной NoSQL DB (HBase, Cassandra, Aerospike, Scylla, ClickHouse и т.п.)

Опыт написания hi-load ETL процессов на базе данных в HDFS-like хранилищах с использованием Kafka Broker-Consumer, Sqoop

Опыт использования/написания java-коннекторов в многопоточных ETL процессах и их интеграция с python/pyspark средой разработки (jdbc, cx_Oracle, jaydebeapi)

Опыт в автоматизации ETL процессов с использованием cronjob, Oozie

Опыт разработки стриминговых решений с использованием стека Kafka+Spark streaming будет плюсом

Опыт работы по разворачиванию и конфигурации динамических сред на базе OpenShift будет плюсом

Знание основных алгоритмов машинного обучения и опыт работы с ML Python стеком (numpy, scipy, pandas, sklrean, matpotlib, seaborn, plotly) будет плюсом

Опыт bakend разработки на Python будет преимуществом

Опыт работ с Linux и написания bash/shell сценариев

Высшее образование в области Информационные технологии;

Опыт работы в финансовой сфере и знание банковских продуктов будет плюсом

Бонусы

Возможность посещения (как в качестве слушателя, так и в качестве выступающего) всероссийских и международных IT конференций

Курсы повышения квалификации несколько раз в год

Возможность изучать английский язык с высококлассными преподавателями на территории компании

ДМС для сотрудников и скидки на медицинскую страховку для родственников

Программа корпоративных скидок