Projet IR - Recherche d'Information avec TF-IDF et Cross-Encoder

Version Python 3.8 : ou plus
Réalisé par : Titouan BEAUVERGER, Morgan PHILIPPE, Marko BABIC

Installation

Activer le venv

.venv\Scripts\activate

Installer les dépendances

pip install -r requirements.txt

Télécharger le modèle spaCy français

python -m spacy download fr_core_news_sm

Utilisation

1. Interface Streamlit (Recommandé)

L'interface Streamlit offre deux modes d'utilisation :

Lancer l'interface

streamlit run app.py

Mode Recherche Interactive

Entrez une requête dans la barre de recherche
Configurez les paramètres (k, top-k, reranking) dans la barre latérale
Cliquez sur "Rechercher" pour obtenir les documents pertinents
Visualisez les résultats avec scores et extraits de documents

Mode Évaluation Complète

Configure les paramètres dans la barre latérale
Lancez l'évaluation sur toutes les requêtes du fichier requetes.jsonl
Consultez les métriques (MRR, MAP, P@k, R@k)
Téléchargez les résultats en JSON

2. Pipeline en ligne de commande

python pipeline.py --k 10 --top-k 30 --rerank

Options disponibles :

--k : Nombre de résultats finaux par requête (défaut: 10)
--top-k : Nombre de documents TF-IDF à envoyer au cross-encoder (défaut: 30)
--rerank : Activer le reranking avec cross-encoder
--force-preprocess : Forcer le prétraitement des documents
--force-tfidf : Forcer le recalcul du modèle TF-IDF

3. Modules individuels

Prétraitement seul

python preprocess.py

Indexation et recherche

python indexation.py

Architecture du Projet

Fichiers principaux

app.py : Interface Streamlit avec recherche interactive et évaluation
pipeline.py : Pipeline complet (prétraitement → TF-IDF → reranking → évaluation)
preprocessing_all_text.py : Prétraitement des documents Wikipedia
indexation.py : TF-IDF, similarité cosinus et cross-encoder
evaluation.py : Métriques d'évaluation (P@k, R@k, MRR, MAP)

Fichiers générés

preprocessed_data.pkl : Documents nettoyés et tokenisés (réutilisable)
tfidf_model.pkl : Modèle TF-IDF sauvegardé
evaluation_results.json : Résultats des métriques d'évaluation

Données

wiki_split_extract_2k/ : Corpus de documents Wikipedia
requetes.jsonl : Requêtes de test avec documents pertinents (ground truth)

Workflow du Pipeline

Prétraitement : Nettoyage, tokenisation, lemmatisation avec spaCy
Indexation TF-IDF : Vectorisation des documents
Recherche rapide : Similarité cosinus pour sélectionner top-k documents
Reranking (optionnel) : Cross-encoder pour améliorer la précision
Évaluation : Calcul des métriques P@k, R@k, MRR, MAP

Métriques d'Évaluation

P@k : Précision aux k premiers résultats
R@k : Rappel aux k premiers résultats
MRR : Mean Reciprocal Rank (position du 1er document pertinent)
MAP : Mean Average Precision

Notes sur le Prétraitement

Fichiers à tester avec des phrases inutiles de Wikipedia

wiki_000711
wiki_000297
wiki_000468
wiki_000612

Le prétraitement supprime automatiquement les bandeaux Wikipedia et autres contenus non pertinents.

Performance

TF-IDF seul : Très rapide (~ms par requête)
TF-IDF + Cross-Encoder : Plus précis mais plus lent (~secondes par requête)

Recommandation : Utiliser top-k = 3-5× le nombre de résultats finaux pour un bon compromis vitesse/précision.

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Projet IR - Recherche d'Information avec TF-IDF et Cross-Encoder

Installation

Activer le venv

Installer les dépendances

Télécharger le modèle spaCy français

Utilisation

1. Interface Streamlit (Recommandé)

Lancer l'interface

Mode Recherche Interactive

Mode Évaluation Complète

2. Pipeline en ligne de commande

3. Modules individuels

Prétraitement seul

Indexation et recherche

Architecture du Projet

Fichiers principaux

Fichiers générés

Données

Workflow du Pipeline

Métriques d'Évaluation

Notes sur le Prétraitement

Fichiers à tester avec des phrases inutiles de Wikipedia

Performance

About

Uh oh!

Releases

Packages

Uh oh!

Contributors

Uh oh!

Languages

Name		Name	Last commit message	Last commit date
Latest commit History 18 Commits
wiki_split_extract_2k		wiki_split_extract_2k
.gitignore		.gitignore
README.md		README.md
README_Enonce.md		README_Enonce.md
app.py		app.py
evaluation.py		evaluation.py
evaluation_results.json		evaluation_results.json
index.py		index.py
pipeline.py		pipeline.py
preprocess.py		preprocess.py
ranking.py		ranking.py
requetes.jsonl		requetes.jsonl
requirements.txt		requirements.txt

Folders and files

Latest commit

History

Repository files navigation

Projet IR - Recherche d'Information avec TF-IDF et Cross-Encoder

Installation

Activer le venv

Installer les dépendances

Télécharger le modèle spaCy français

Utilisation

1. Interface Streamlit (Recommandé)

Lancer l'interface

Mode Recherche Interactive

Mode Évaluation Complète

2. Pipeline en ligne de commande

3. Modules individuels

Prétraitement seul

Indexation et recherche

Architecture du Projet

Fichiers principaux

Fichiers générés

Données

Workflow du Pipeline

Métriques d'Évaluation

Notes sur le Prétraitement

Fichiers à tester avec des phrases inutiles de Wikipedia

Performance

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Contributors

Uh oh!

Languages

Packages