Esta parte do projeto realiza o reconhecimento óptico de caracteres (OCR) em arquivos PDF digitalizados, extraindo o conteúdo de texto com o auxílio de pdf2image e pytesseract.
- A primeira etapa consistiu na aplicação de OCR utilizando a biblioteca Tesseract OCR, em conjunto com OpenCV e Pillow, para converter imagens digitalizadas dos formulários em texto bruto.
- Foram utilizados modelos de OCR com configuração customizada (
--oem 3 --psm 6) para melhor interpretação de formulários semi-estruturados.
- As imagens foram convertidas para escala de cinza e binarizadas para melhorar a taxa de acerto do OCR.
- Utilizou-se a função
cv2.threshold()para separar o conteúdo do fundo e isolar os textos relevantes.
- Após o OCR, utilizamos expressões regulares (
re) para capturar informações específicas como:- Nome da entrevistada
- Data da entrevista
- Nome do entrevistador
- Local e tipo de moradia
- Identidade de gênero, histórico de transição
- Escolaridade, histórico de violência, forma de renda, entre outros
- Os dados extraídos foram organizados em um
DataFramedo pandas. - Em seguida, exportamos para arquivos
.xlsxe.csvpara posterior análise estatística.
- Análise descritiva por categoria (frequência de respostas, idade média de transição, níveis de escolaridade etc.).
- Geração de dashboards para identificação de padrões (ex: acolhimento x escolaridade, migração x renda).
- Avaliação da consistência dos dados e possíveis viéses de resposta.
- Todos os dados são sensíveis e relacionados a identidade de gênero, história de vida e saúde. A manipulação dos dados exige consentimento ético e anonimização.
- Cuidados foram tomados para garantir sigilo e respeito às informações coletadas.
pytesseractopencv-pythonPillowrepandas
📂 extracao_formularios ├── imagens/ │ └── formulario1.png ├── extrator.py ├── dados_extraidos.xlsx ├── variaveis_formulario.csv └── README.md