Skip to content

raissaalvimt/mct

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

12 Commits
 
 
 
 
 
 
 
 

Repository files navigation

Extração de Dados - Formulários MCT (Minha Criança Trans)

Esta parte do projeto realiza o reconhecimento óptico de caracteres (OCR) em arquivos PDF digitalizados, extraindo o conteúdo de texto com o auxílio de pdf2image e pytesseract.

OCR de Digitalizações MCTI

Etapas do Processo

1. Reconhecimento Óptico de Caracteres (OCR)

  • A primeira etapa consistiu na aplicação de OCR utilizando a biblioteca Tesseract OCR, em conjunto com OpenCV e Pillow, para converter imagens digitalizadas dos formulários em texto bruto.
  • Foram utilizados modelos de OCR com configuração customizada (--oem 3 --psm 6) para melhor interpretação de formulários semi-estruturados.

2. Pré-processamento das Imagens

  • As imagens foram convertidas para escala de cinza e binarizadas para melhorar a taxa de acerto do OCR.
  • Utilizou-se a função cv2.threshold() para separar o conteúdo do fundo e isolar os textos relevantes.

3. Extração de Campos

  • Após o OCR, utilizamos expressões regulares (re) para capturar informações específicas como:
    • Nome da entrevistada
    • Data da entrevista
    • Nome do entrevistador
    • Local e tipo de moradia
    • Identidade de gênero, histórico de transição
    • Escolaridade, histórico de violência, forma de renda, entre outros

4. Armazenamento dos Dados

  • Os dados extraídos foram organizados em um DataFrame do pandas.
  • Em seguida, exportamos para arquivos .xlsx e .csv para posterior análise estatística.

Possibilidades Analíticas

  • Análise descritiva por categoria (frequência de respostas, idade média de transição, níveis de escolaridade etc.).
  • Geração de dashboards para identificação de padrões (ex: acolhimento x escolaridade, migração x renda).
  • Avaliação da consistência dos dados e possíveis viéses de resposta.

Considerações Éticas

  • Todos os dados são sensíveis e relacionados a identidade de gênero, história de vida e saúde. A manipulação dos dados exige consentimento ético e anonimização.
  • Cuidados foram tomados para garantir sigilo e respeito às informações coletadas.

Bibliotecas Utilizadas

  • pytesseract
  • opencv-python
  • Pillow
  • re
  • pandas

📁 Estrutura do Projeto

📂 extracao_formularios ├── imagens/ │ └── formulario1.png ├── extrator.py ├── dados_extraidos.xlsx ├── variaveis_formulario.csv └── README.md

About

No description, website, or topics provided.

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages