Решение задачи обнаружения дублирующихся объявлений на платформе Avito в рамках хакатона AvitoTech ML Cup 2025.
Задача: Разработка алгоритма для выявления дубликатов объявлений на основе анализа текстовых описаний, изображений и метаданных.
Особенности задачи:
- Разные формулировки описаний для одного товара
- Различающиеся изображения (ракурс, фон, качество)
- Допустимые вариации (разные размеры одной модели)
- Необходимость комплексного анализа мультимодальных данных
Mean Average Precision (MAP) - основная метрика оценки качества решения.
raw data → preprocessing → feature engineering → model training → prediction
-
Предобработка данных:
- Очистка текстов (нормализация, лемматизация, удаление стоп-слов)
- Обработка пропущенных значений
- Кодирование категориальных признаков
-
Извлечение признаков:
- Текстовые признаки (сходство заголовков, описаний)
- Визуальные признаки (сходство изображений)
- Метаданные (цена, категория, параметры)
- Комбинированные признаки
-
Модель:
- Ансамбль LightGBM классификаторов
- Калибровка предсказаний
- Оптимизация порога классификации
- Мультимодальный анализ (текст + изображения)
- Каскадная схема сравнения изображений
- Специальная обработка товаров с вариациями
- Кросс-валидация с сохранением калибраторов