Skip to content

Nath9666/Lexo

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

1 Commit
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

Lexo

Lexo est un outil OCR permettant d'extraire du texte à partir d'images ou de PDF numérisés et de générer des fichiers Word ou texte avec le contenu structuré.

Fonctionnalités

  • Lecture de texte depuis des images (.png, .jpg, etc.) ou des PDF numérisés.
  • Extraction automatique du texte avec support multilingue (français et anglais).
  • Génération de fichiers .docx ou .txt contenant le texte structuré.
  • Interface utilisateur simple avec support pour glisser-déposer ou sélection de fichiers.
  • Gestion des erreurs et des logs.

Installation

  1. Clonez ce dépôt :
    git clone <URL_DU_DEPOT>
    cd Lexo
  2. Installez les dépendances :
    pip install -r requirements.txt
  3. Assurez-vous que Tesseract est installé sur votre système et accessible via le PATH.

Utilisation

  1. Lancez le script principal :
    python main.py
  2. Une interface graphique s'ouvrira pour sélectionner les fichiers à traiter.

Configuration supplémentaire

  • Pour le support PDF, installez poppler-utils (nécessaire pour pdf2image).
    • Sous Windows, téléchargez Poppler depuis ce lien.
    • Ajoutez le chemin de poppler/bin à votre PATH.

Logs

Les logs des opérations sont enregistrés dans le fichier lexo.log.

About

Outil OCR permettant d’extraire et de structurer du texte à partir d’images et de PDF scannés (export en .docx et .txt) — prise en charge du français et de l’anglais

Topics

Resources

Stars

Watchers

Forks

Contributors

Languages