Busqueda_Hospital_HUBU

Proyecto desarrollado en entorno hospitalario para automatizar la extracción de datos clínicos desde informes médicos en PDF, identificar ciertos criterios diagnósticos y cruzarlos con una base de datos en Excel. Por motivos de confidencialidad, no se incluyen ejemplos de ejecución ni archivos de salida, ya que el código fue utilizado con información sensible de pacientes.

Project developed in a hospital setting to automate the extraction of clinical data from medical reports in PDF format, identify specific diagnostic criteria, and cross-reference the results with an Excel database. Due to confidentiality reasons, no execution examples or output files are included, as the code was used with sensitive patient information.

Extracción y análisis de informes médicos en formato PDF

Este proyecto permite extraer información estructurada desde informes médicos en formato PDF, aplicar filtros clínicos definidos y generar bases de datos en Excel para su posterior análisis o integración con otros sistemas.

Está diseñado para entornos hospitalarios que requieran:

Procesamiento automático de grandes volúmenes de informes médicos.
Detección de criterios diagnósticos específicos.
Enlace de los resultados con bases de datos preexistentes (por ejemplo, bases de datos de biobanco).

Funcionalidades principales

1. `extraer_informes_pdf(pdf_path)`

Extrae y analiza informes contenidos en un PDF. Para que un informe sea considerado válido, debe contener:

Un número de historia clínica (NHC).
Un número de muestra o biopsia.
Una procedencia anatómica válida (por ejemplo: colon, sigma, recto, intestino grueso).
Un diagnóstico.
La presencia de la frase: "NO SE DETECTA pérdida".

Si se cumplen estos criterios, la información se almacena en un archivo Excel.

2. `guardar_en_excel(datos, output_path)`

Guarda los resultados extraídos en un archivo .xlsx.

3. `combinar_resultados(base_resultados, base_biobancbdd, output_final)`

Combina los resultados extraídos con una base de datos externa utilizando el campo común NHC. El resultado se guarda en un nuevo archivo Excel.

Requisitos

Se detallan en el archivo requirements.txt.*

*Para instalar todas las dependencias ejecute: pip install -r requirements.txt

Estructura esperada del proyecto

tu_proyecto/ ├── archivo.pdf # Informe PDF original ├── biobancbdd.xlsx # Base de datos externa ├── resultados.xlsx # Resultados extraídos del PDF ├── resultadosfinal.xlsx # Resultados combinados ├── main.py # Código principal ├── README.md # Descripción del proyecto └── requirements.txt # Requisitos del entorno

Estructura de entrada esperada (PDF)

Los informes médicos deben contener texto seleccionable (no imágenes o escaneos) y seguir una estructura coherente en la que se pueda identificar claramente información como el número de historia clínica, número de biopsia, procedencia anatómica, diagnóstico y resultado. El algoritmo está diseñado para manejar ligeras variaciones tipográficas o de formato, pero requiere que estos elementos estén presentes en el texto del informe.

Ejecución

Colocar los archivos archivo.pdf y biobancbdd.xlsx en la carpeta de trabajo.
Ejecutar el archivo main.py.
Se generarán archivos Excel con los resultados obtenidos y su combinación con la base de datos externa.

Notas

El código ha sido probado con documentos PDF que contienen texto seleccionable. No funciona con documentos escaneados como imagen.
La detección de patrones en los informes es flexible ante mayúsculas, acentos y pequeñas inconsistencias de formato.
Por motivos de confidencialidad, este repositorio no incluye archivos de entrada, salida ni ejemplos de ejecución.

Autor

Desarrollado por Diego Vallina Álvarez, estudiante de cuarto curso del Grado en Ingeniería de la Salud, durante su periodo de prácticas en el Hospital Universitario de Burgos (Área de Anatomía Patológica), a fecha de 31/03/2025.

Contacto: diego25codema@gmail.com

Name		Name	Last commit message	Last commit date
Latest commit History 6 Commits
Busqueda.ipynb		Busqueda.ipynb
README.md		README.md
busqueda.py		busqueda.py
requirements.txt		requirements.txt

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Busqueda_Hospital_HUBU

Extracción y análisis de informes médicos en formato PDF

Funcionalidades principales

1. `extraer_informes_pdf(pdf_path)`

2. `guardar_en_excel(datos, output_path)`

3. `combinar_resultados(base_resultados, base_biobancbdd, output_final)`

Requisitos

Estructura esperada del proyecto

Estructura de entrada esperada (PDF)

Ejecución

Notas

Autor

About

Uh oh!

Releases 1

Packages

Uh oh!

Uh oh!

Contributors

Uh oh!

Languages

Folders and files

Latest commit

History

Repository files navigation

Busqueda_Hospital_HUBU

Extracción y análisis de informes médicos en formato PDF

Funcionalidades principales

1. extraer_informes_pdf(pdf_path)

2. guardar_en_excel(datos, output_path)

3. combinar_resultados(base_resultados, base_biobancbdd, output_final)

Requisitos

Estructura esperada del proyecto

Estructura de entrada esperada (PDF)

Ejecución

Notas

Autor

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases 1

Packages 0

Uh oh!

Uh oh!

Contributors

Uh oh!

Languages

1. `extraer_informes_pdf(pdf_path)`

2. `guardar_en_excel(datos, output_path)`

3. `combinar_resultados(base_resultados, base_biobancbdd, output_final)`

Packages