Legal OCR - Extração de Texto de Documentos Jurídicos

Sistema profissional de OCR otimizado para documentos jurídicos brasileiros em PDF

📋 Visão Geral

Legal OCR é uma skill do Claude Code especializada em extrair texto de documentos jurídicos escaneados com alta precisão. Utiliza técnicas state-of-the-art de OCR (Optical Character Recognition) otimizadas especificamente para a linguagem jurídica brasileira.

✨ Principais Características

Alta Precisão: 95%+ em documentos limpos, 85-90% em scans de baixa qualidade
Otimizado para Português Jurídico: Dicionário com 250+ termos jurídicos
Multi-Engine: PaddleOCR (primário) + EasyOCR (fallback automático)
Pré-processamento Avançado: Correção de inclinação, remoção de ruído, CLAHE
Identificação de Estrutura: Detecta seções (relatório, fundamentação, dispositivo)
GPU Accelerated: Processamento 3x mais rápido com GPU
Validação de Qualidade: Score de confiança e detecção automática de erros

🎯 Casos de Uso

Digitalização de acervos jurídicos históricos
Alimentação de sistemas RAG (Retrieval-Augmented Generation)
Criação de bases de jurisprudência pesquisáveis
Conversão de processos físicos para formato digital
Integração com workflows automatizados (n8n, Zapier, etc.)

🚀 Quick Start

Instalação

cd .claude/skills/legal-ocr
chmod +x setup.sh
./setup.sh

Uso Básico

# Processar um PDF
python pipeline_ocr.py sentenca.pdf

# Com configurações customizadas
python pipeline_ocr.py documento.pdf --quality high --dpi 400

Uso Programático

from pipeline_ocr import LegalDocumentOCRPipeline

pipeline = LegalDocumentOCRPipeline(use_gpu=True)
result = pipeline.process_legal_document('sentenca.pdf')

print(f"Confiança: {result['quality_summary']['avg_confidence']}")
print(f"Texto extraído: {result['full_text'][:500]}...")

📊 Performance

Configuração	Throughput	Acurácia	Requisitos
GPU + Batch 32	800 pág/hora	95%+	8GB VRAM
GPU + Batch 16	600 pág/hora	95%+	6GB VRAM
CPU	300 pág/hora	94%	4GB RAM

🛠️ Stack Tecnológico

┌─────────────────────────────────────┐
│     PDF Scaneado (Input)            │
└──────────────┬──────────────────────┘
               │
       ┌───────▼────────┐
       │   PyMuPDF      │  ← Conversão PDF→Imagem
       │   (300 DPI)    │     (3.3x mais rápido)
       └───────┬────────┘
               │
       ┌───────▼────────┐
       │    OpenCV      │  ← Pré-processamento
       │  • Skew fix    │  • Correção inclinação
       │  • Denoise     │  • Remoção de ruído
       │  • CLAHE       │  • Melhoria contraste
       │  • Binarize    │  • Binarização
       └───────┬────────┘
               │
       ┌───────▼────────┐
       │  PaddleOCR     │  ← OCR Primário (pt-BR)
       │  (Português)   │     95%+ acurácia
       └───────┬────────┘
               │
          Low conf?
               │
       ┌───────▼────────┐
       │   EasyOCR      │  ← Fallback automático
       │  (Portuguese)  │
       └───────┬────────┘
               │
       ┌───────▼────────┐
       │ Pós-processo   │  ← Correção jurídica
       │ • Legal dict   │  • 250+ termos
       │ • Fuzzy match  │  • Correção acentos
       │ • Structure ID │  • Identifica seções
       └───────┬────────┘
               │
       ┌───────▼────────┐
       │  Validação     │  ← Quality check
       │ • Confidence   │  • Score 0-100
       │ • Error detect │  • Flag O/0, l/1
       └───────┬────────┘
               │
       ┌───────▼────────┐
       │  JSON Output   │  ← Resultado estruturado
       └────────────────┘

📁 Estrutura do Projeto

legal-ocr/
├── SKILL.md                 # Documentação principal (skill format)
├── README.md                # Este arquivo
├── pipeline_ocr.py          # Script principal de OCR
├── legal_dictionary.json    # Dicionário jurídico (250+ termos)
├── requirements.txt         # Dependências Python
├── setup.sh                 # Script de instalação
├── examples.md              # Exemplos práticos de uso
├── reference.md             # Referência técnica completa
└── logs/                    # Logs de processamento
    └── ocr_processing.log

📖 Documentação

SKILL.md - Visão geral e conceitos (formato de skill do Claude Code)
examples.md - Exemplos práticos e casos de uso
reference.md - Detalhes técnicos e configurações avançadas

🔧 Requisitos

Sistema

Python 3.8 ou superior
4GB RAM (mínimo), 8GB recomendado
GPU NVIDIA com CUDA (opcional, mas recomendado para produção)
2GB de espaço em disco (modelos OCR)

Dependências Principais

paddleocr>=2.8.0 - Engine OCR primário
PyMuPDF>=1.23.0 - Conversão PDF→Imagem
opencv-python>=4.8.0 - Pré-processamento
easyocr>=1.7.0 - Engine fallback
torch>=2.0.0 - Deep learning (GPU)

Ver requirements.txt para lista completa.

💡 Exemplos Rápidos

Processar um único PDF

python pipeline_ocr.py sentenca_123.pdf
# Output: sentenca_123_ocr.json

Documento de baixa qualidade

python pipeline_ocr.py documento_antigo.pdf --quality high --dpi 400

Batch processing (Python)

from pipeline_ocr import LegalDocumentOCRPipeline
from pathlib import Path

pipeline = LegalDocumentOCRPipeline(use_gpu=True)

for pdf in Path('./processos/').glob('*.pdf'):
    result = pipeline.process_legal_document(str(pdf))
    print(f"{pdf.name}: {result['quality_summary']['overall_quality']}")

Integração com SIGEDEC (Qdrant)

# Extrair + Indexar no vector database
result = pipeline.process_legal_document('acordao.pdf')

if result['quality_summary']['overall_quality'] != 'poor':
    embedding = get_embedding(result['full_text'])
    qdrant_client.upsert(collection_name="jurisprudencia", points=[...])

🧪 Testing

# Test básico
python pipeline_ocr.py test_document.pdf

# Verificar instalação
python -c "from pipeline_ocr import LegalDocumentOCRPipeline; print('OK')"

# Verificar GPU
python -c "import torch; print(f'GPU: {torch.cuda.is_available()}')"

🐛 Troubleshooting

GPU out of memory

# Use CPU ao invés de GPU
python pipeline_ocr.py documento.pdf --no-gpu

Baixa acurácia

# Aumente DPI e use modo high quality
python pipeline_ocr.py documento.pdf --quality high --dpi 400

Texto embaralhado

# Documento multi-coluna - aumente DPI
python pipeline_ocr.py documento.pdf --dpi 400

Ver examples.md para mais soluções.

🔗 Integração com SIGEDEC

Esta skill foi desenvolvida para integrar com o sistema SIGEDEC de geração de decisões judiciais:

# Workflow: PDF Escaneado → OCR → Qdrant → RAG → Geração
1. Legal OCR extrai texto de jurisprudência escaneada
2. Texto é indexado no Qdrant (vector database)
3. Sistema RAG busca precedentes relevantes
4. Multi-Agent Debate System gera decisão fundamentada

Ver CLAUDE.md para detalhes do projeto SIGEDEC.

📈 Roadmap

Suporte a DeepSeek-OCR (10x compressão, 97%+ acurácia)
Fine-tuning de modelo PT para jurídico brasileiro
Extração estruturada de tabelas complexas
Detecção automática de assinaturas digitais
Suporte multi-idioma (ES, EN)
API REST para integração remota
Interface web (Streamlit/Gradio)

📄 Licença

MIT License - Ver LICENSE para detalhes.

🤝 Contribuições

Contribuições são bem-vindas! Por favor, abra uma issue ou pull request.

✍️ Autores

SIGEDEC Team - Sistema de Geração de Decisões Judiciais
Desenvolvido como parte do projeto de automação judiciária

📞 Suporte

Issues: Abra uma issue no repositório
Documentação: Ver SKILL.md e examples.md
Logs: .claude/skills/legal-ocr/logs/ocr_processing.log

Versão: 1.0.0 Última atualização: 2025-12-10 Status: Production Ready ✅

Name		Name	Last commit message	Last commit date
Latest commit History 1 Commit
logs		logs
.gitignore		.gitignore
LICENSE		LICENSE
README.md		README.md
SKILL.md		SKILL.md
examples.md		examples.md
legal_dictionary.json		legal_dictionary.json
pipeline_ocr.py		pipeline_ocr.py
requirements.txt		requirements.txt
setup.sh		setup.sh

Folders and files

Latest commit

History

Repository files navigation

Legal OCR - Extração de Texto de Documentos Jurídicos

📋 Visão Geral

✨ Principais Características

🎯 Casos de Uso

🚀 Quick Start

Instalação

Uso Básico

Uso Programático

📊 Performance

🛠️ Stack Tecnológico

📁 Estrutura do Projeto

📖 Documentação

🔧 Requisitos

Sistema

Dependências Principais

💡 Exemplos Rápidos

Processar um único PDF

Documento de baixa qualidade

Batch processing (Python)

Integração com SIGEDEC (Qdrant)

🧪 Testing

🐛 Troubleshooting

GPU out of memory

Baixa acurácia

Texto embaralhado

🔗 Integração com SIGEDEC

📈 Roadmap

📄 Licença

🤝 Contribuições

✍️ Autores

📞 Suporte

About

Topics

Resources

License

Uh oh!

Stars

Watchers

Forks

Releases 1

Packages 0

Uh oh!

Contributors

Uh oh!

Languages

Packages