Skip to content

DzhamiliaFatkullina/AvitoDuplicateSearch

Repository files navigation

Обнаружение дубликатов объявлений на Avito

Описание проекта

Решение задачи обнаружения дублирующихся объявлений на платформе Avito в рамках хакатона AvitoTech ML Cup 2025.

Задача: Разработка алгоритма для выявления дубликатов объявлений на основе анализа текстовых описаний, изображений и метаданных.

Особенности задачи:

  • Разные формулировки описаний для одного товара
  • Различающиеся изображения (ракурс, фон, качество)
  • Допустимые вариации (разные размеры одной модели)
  • Необходимость комплексного анализа мультимодальных данных

Метрика

Mean Average Precision (MAP) - основная метрика оценки качества решения.

Решение

Архитектура решения

raw data → preprocessing → feature engineering → model training → prediction

Ключевые компоненты

  1. Предобработка данных:

    • Очистка текстов (нормализация, лемматизация, удаление стоп-слов)
    • Обработка пропущенных значений
    • Кодирование категориальных признаков
  2. Извлечение признаков:

    • Текстовые признаки (сходство заголовков, описаний)
    • Визуальные признаки (сходство изображений)
    • Метаданные (цена, категория, параметры)
    • Комбинированные признаки
  3. Модель:

    • Ансамбль LightGBM классификаторов
    • Калибровка предсказаний
    • Оптимизация порога классификации

Особенности реализации

  • Мультимодальный анализ (текст + изображения)
  • Каскадная схема сравнения изображений
  • Специальная обработка товаров с вариациями
  • Кросс-валидация с сохранением калибраторов

Участники

About

No description, website, or topics provided.

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

 
 
 

Contributors