PDF OCR Translator

Este projeto realiza extração de texto (OCR) de arquivos PDF e tradução automática para o português utilizando Tesseract OCR e a API do Google Translate (via deep-translator), com suporte completo ao Docker.

Funcionalidades

Divide arquivos PDF em blocos de páginas.
Extrai o texto de cada página via OCR com Tesseract.
Traduz automaticamente o conteúdo extraído para o português.
Gera arquivos .txt com o resultado de cada bloco.
Tudo pode ser executado via Docker, sem necessidade de configurar o ambiente manualmente.

Executando com Docker

1. Clone o repositório

bash git clone https://github.com/joaomarafiotti/pdf-ocr-translator.git cd pdf-ocr-translator

2. Coloque seu PDF na pasta `input/`

Exemplo: input/sample.pdf

3. Construa a imagem Docker

bash docker build -t pdf-ocr .

4. Execute o contêiner para extrair o texto (OCR)

docker run -v "$PWD:/app" pdf-ocr

5. Traduzir um bloco específico

docker run -v "$PWD:/app" pdf-ocr python translate_block.py blocos_ocr/texto_001_050.txt

Estrutura do Projeto

pdf-ocr-translator/

main_ocr.py # Extração de texto via OCR
translate_block.py # Tradução de arquivos extraídos
Dockerfile # Ambiente Docker automatizado
requirements.txt # Dependências Python
input/ # PDF de entrada (ex: sample.pdf)
blocos_ocr/ # Arquivos .txt gerados com os textos

Tecnologias Usadas

Python 3.10
Tesseract OCR
Poppler-utils
PDF2Image
Deep-Translator
Docker

Name		Name	Last commit message	Last commit date
Latest commit History 14 Commits
.gitignore		.gitignore
Dockerfile		Dockerfile
README.md		README.md
main_ocr.py		main_ocr.py
requirements.txt		requirements.txt
translate_block.py		translate_block.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

PDF OCR Translator

Funcionalidades

Executando com Docker

1. Clone o repositório

2. Coloque seu PDF na pasta `input/`

3. Construa a imagem Docker

4. Execute o contêiner para extrair o texto (OCR)

5. Traduzir um bloco específico

Estrutura do Projeto

Tecnologias Usadas

About

Uh oh!

Releases

Packages

Uh oh!

Uh oh!

Contributors

Uh oh!

Languages

Folders and files

Latest commit

History

Repository files navigation

PDF OCR Translator

Funcionalidades

Executando com Docker

1. Clone o repositório

2. Coloque seu PDF na pasta input/

3. Construa a imagem Docker

4. Execute o contêiner para extrair o texto (OCR)

5. Traduzir um bloco específico

Estrutura do Projeto

Tecnologias Usadas

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Uh oh!

Contributors

Uh oh!

Languages

2. Coloque seu PDF na pasta `input/`

Packages