Extração de Dados - Formulários MCT (Minha Criança Trans)

Esta parte do projeto realiza o reconhecimento óptico de caracteres (OCR) em arquivos PDF digitalizados, extraindo o conteúdo de texto com o auxílio de pdf2image e pytesseract.

OCR de Digitalizações MCTI

Etapas do Processo

1. Reconhecimento Óptico de Caracteres (OCR)

A primeira etapa consistiu na aplicação de OCR utilizando a biblioteca Tesseract OCR, em conjunto com OpenCV e Pillow, para converter imagens digitalizadas dos formulários em texto bruto.
Foram utilizados modelos de OCR com configuração customizada (--oem 3 --psm 6) para melhor interpretação de formulários semi-estruturados.

2. Pré-processamento das Imagens

As imagens foram convertidas para escala de cinza e binarizadas para melhorar a taxa de acerto do OCR.
Utilizou-se a função cv2.threshold() para separar o conteúdo do fundo e isolar os textos relevantes.

3. Extração de Campos

Após o OCR, utilizamos expressões regulares (re) para capturar informações específicas como:
- Nome da entrevistada
- Data da entrevista
- Nome do entrevistador
- Local e tipo de moradia
- Identidade de gênero, histórico de transição
- Escolaridade, histórico de violência, forma de renda, entre outros

4. Armazenamento dos Dados

Os dados extraídos foram organizados em um DataFrame do pandas.
Em seguida, exportamos para arquivos .xlsx e .csv para posterior análise estatística.

Possibilidades Analíticas

Análise descritiva por categoria (frequência de respostas, idade média de transição, níveis de escolaridade etc.).
Geração de dashboards para identificação de padrões (ex: acolhimento x escolaridade, migração x renda).
Avaliação da consistência dos dados e possíveis viéses de resposta.

Considerações Éticas

Todos os dados são sensíveis e relacionados a identidade de gênero, história de vida e saúde. A manipulação dos dados exige consentimento ético e anonimização.
Cuidados foram tomados para garantir sigilo e respeito às informações coletadas.

Bibliotecas Utilizadas

pytesseract
opencv-python
Pillow
re
pandas

📁 Estrutura do Projeto

📂 extracao_formularios ├── imagens/ │ └── formulario1.png ├── extrator.py ├── dados_extraidos.xlsx ├── variaveis_formulario.csv └── README.md

Name		Name	Last commit message	Last commit date
Latest commit History 12 Commits
input		input
scripts		scripts
README.md		README.md
run_ocr.sh		run_ocr.sh

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Extração de Dados - Formulários MCT (Minha Criança Trans)

OCR de Digitalizações MCTI

Etapas do Processo

1. Reconhecimento Óptico de Caracteres (OCR)

2. Pré-processamento das Imagens

3. Extração de Campos

4. Armazenamento dos Dados

Possibilidades Analíticas

Considerações Éticas

Bibliotecas Utilizadas

📁 Estrutura do Projeto

About

Uh oh!

Releases

Packages

Languages

raissaalvimt/mct

Folders and files

Latest commit

History

Repository files navigation

Extração de Dados - Formulários MCT (Minha Criança Trans)

OCR de Digitalizações MCTI

Etapas do Processo

1. Reconhecimento Óptico de Caracteres (OCR)

2. Pré-processamento das Imagens

3. Extração de Campos

4. Armazenamento dos Dados

Possibilidades Analíticas

Considerações Éticas

Bibliotecas Utilizadas

📁 Estrutura do Projeto

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages