Компания «АВ Софт» работает в сегменте информационной безопасности с 2010г.
От 10 до 100 сотрудников
Февраль 2026 — По настоящее время (5 месяцев)
Сбор данных из открытых источников, списков подозрительных доменов и URL, а также коммуникация с зарубежными компаниями в области кибербезопасности для получения и уточнения датасетов по фишинговым и скам-ресурсам.
Разработка парсеров и пайплайнов для сбора DNS, WHOIS, ASN, TLS-сертификатов, robots.txt и признаков доступности страниц. Реализация HTML-парсинга, очистка текста и построение embeddings с использованием моделей all-MiniLM-L6-v2 и multilingual-e5-base.
Формирование датасета объемом до 20 млн строк и 800+ признаков, включая offline-признаки URL, online-признаки доменов, HTML-признаки, текстовые embeddings, служебные статусы обработки и метки классов.
Построение, обучение и сравнение моделей BiLSTM, CatBoost, MLP и Random Forest для детекции фишинговых ресурсов. Выделение и отбор признаков, подбор гиперпараметров, настройка порогов классификации, анализ feature importance и матриц ошибок.
Проведение A/B-тестирования моделей и сравнительной оценки качества по accuracy, precision, recall, F1-score, ROC-AUC и confusion matrix на разных выборках и порогах, включая анализ ложных срабатываний и пропущенных фишинговых URL.
Контейнеризация ML-сервисов и пайплайнов, подготовка решений к выводу в production-среду, настройка окружения, зависимостей и воспроизводимого запуска через Docker.
Поддержка и доработка ETL/ML-пайплайнов с использованием Apache Airflow и MLflow: оркестрация этапов сбора данных, генерации признаков, обучения моделей, логирования экспериментов и сохранения артефактов.
Январь 2023 — По настоящее время (3 года и 6 месяцев)
Поиск открытых источников, взаимодействие с провайдерами спутниковых данных для формирования и валидации датасетов, сбор данных Sentinel-2 и Landsat-7.
Подготовка данных для моделей анализа спутниковых снимков: предобработка растров (rasterio), обрезка по полигонам, нормализация каналов и формирование обучающих выборок.
Определение фичей для задач классификации экосистем: расчёт NDVI/NDWI, статистики по окнам, извлечение рельефных характеристик из DEM.
Настройка MLflow, сборка проектов в Docker контейнеры, разворачивание интерфейса через FastAPI.
Участие в полуавтоматической разметке данных и настраивание масок для разметки с помощью CVAT.
Руководство командами из 8 человек по сборке данных и более чем из 30 человек по разметке данных.