Lexo est un outil OCR permettant d'extraire du texte à partir d'images ou de PDF numérisés et de générer des fichiers Word ou texte avec le contenu structuré.
- Lecture de texte depuis des images (.png, .jpg, etc.) ou des PDF numérisés.
- Extraction automatique du texte avec support multilingue (français et anglais).
- Génération de fichiers
.docxou.txtcontenant le texte structuré. - Interface utilisateur simple avec support pour glisser-déposer ou sélection de fichiers.
- Gestion des erreurs et des logs.
- Clonez ce dépôt :
git clone <URL_DU_DEPOT> cd Lexo
- Installez les dépendances :
pip install -r requirements.txt
- Assurez-vous que Tesseract est installé sur votre système et accessible via le PATH.
- Lancez le script principal :
python main.py
- Une interface graphique s'ouvrira pour sélectionner les fichiers à traiter.
- Pour le support PDF, installez
poppler-utils(nécessaire pourpdf2image).- Sous Windows, téléchargez Poppler depuis ce lien.
- Ajoutez le chemin de
poppler/binà votre PATH.
Les logs des opérations sont enregistrés dans le fichier lexo.log.