Skip to content

Vicomtech/SMINER

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

3 Commits
 
 
 
 

Repository files navigation

SMINER: Spanish Medical Imaging NER corpus

SMINER is a spanish biomedical NER corpus focused exclusively on clinically relevant entities that can be visually grounded in medical imaging data.

Paper

Dataset-BIO Dataset-BRAT Dataset-JSON

This repository contains technical information related to the construction process of the SMINER dataset, benchmark inference, and the final dataset.

Note: This dataset does not contain the associated medical images.


Dataset

Dataset formats

The dataset is released in brat, bio and json formats:

dataset/
│
├── BIO/
│   ├── train.json
│   ├── dev.json
│   └── test.json
├── BRAT/
│   ├── train/
│   │   ├── *.ann
│   │   └── *.txt
│   ├── dev/
│   │   ├── *.ann
│   │   └── *.txt
│   └── test/
│       ├── *.ann
│       └── *.txt
├── JSON/
│   ├── train.json
│   ├── dev.json
│   └── test.json
└── downloads/
    └── *.zip

Dataset statistics

Labels Labels (en) Descriptions
EDAD AGE Patient age
SEXO SEX Patient sex
ENFERMEDAD DISEASE Visually identifiable diseases
PROCEDIMIENTO PROCEDURE Medical imaging procedures
Split Reports Tokens/report Entities/report
Train 701 396.14 ± 182.99 37.72 ± 25.58
Dev 150 409.13 ± 207.27 39.53 ± 27.77
Test 149 386.72 ± 195.28 35.49 ± 23.81
Full 1000 396.69 ± 188.57 37.66 ± 25.67

Entity distribution

Class Train Dev Test Total (percenge)
Age 764 172 164 1100 (8.82%)
Sex 609 122 132 863 (6.92%)
Disease 4811 1097 954 6862 (55.03%)
Procedure 2529 581 535 3645 (29.23%)
Total 8713 1972 1785 12470 (100%)

Prompts used for dataset construction

  • Diseases
Tu tarea es clasificar cada término en una de tres categorías según si puede ser detectado o evidenciado mediante técnicas de imagen médica (radiografía, tomografía computarizada, resonancia magnética, ecografía, etc.):

1. **Perceptible**: la enfermedad produce cambios visibles o hallazgos que pueden ser observados directamente en imágenes médicas (ejemplo: tumor cerebral, derrame pleural, fractura ósea).

2. **No perceptible**: la enfermedad NO puede ser diagnosticada o identificada directamente mediante imágenes médicas, porque requiere pruebas clínicas, analíticas o funcionales adicionales (ejemplo: diabetes, anemia, hipertensión arterial).

### Instrucciones adicionales:
- Devuelve unicamente la clase a la que pertenece el término, sin texto adicional
- Cuando la condiciĂłn puede o no ser perceptible en imagen, dependiendo del contexto clĂ­nico, el estadio de la enfermedad, o la modalidad de imagen utilizada, marcar como **Ambiguo**
- Si desconoces este término médico o no conoces la enfermedad, marcar como **Ambiguo**
- Se te proporcionará un fragmento del contexto en el que aparece el término para facilitar la tarea

Término a clasificar: [TERM]

Contexto: [CONTEXT]
  • Procedures
Tu tarea es clasificar cada procedimiento médico en una de tres categorías según si se referencia una técnica de imagen médica (radiografía, tomografía computarizada, resonancia magnética, ecografía, angiografía, etc.):

1. **Perceptible**: Existe una clara mención de una técnica de imagen médica ya sea de su nomenclatura completa o de siglas equivalentes (ejemplo: radiografía, tomografía computarizada, resonoancia magnética, tac, ct, rmn, rx).

2. **No perceptible**: No existe una mención clara de una modalidad de imagen médica. En su lugar, el término referencia procedimientos quirúrgicos, tratamientos, medicamentos o exploraciones.

### Instrucciones adicionales:
- Devuelve unicamente la clase a la que pertenece el término, sin texto adicional
- Cuando la mención de una técnica de imagen médica no esté clara, debido a ambigüedad en la terminología médica, a que se menciona algún otro procedimiento no relacionado con imagen médica en el mismo término, marcar como **Ambiguo**.
- Si desconoces este término médico o no conoces la enfermedad, marcar como **Ambiguo**
- Se te proporcionará un fragmento del contexto en el que aparece el término para facilitar la tarea

Término a clasificar: [TERM]

Contexto: [CONTEXT]

Parameters

Finetuning hiperparameters for EriBERTa, Biomedical RoBERTa and Multilingual BERT

learning_rate: 5e-5,
sliding_window: true,
weight_decay: 0.0,
lr_scheduler_type: "linear",
eval_strategy: "epoch",
per_device_train_batch_size: 8,
per_device_eval_batch_size: 8,
num_train_epochs: 20

Finetuning hiperparameters for Medical mT5 large

model: HiTZ/Medical-mT5-large
batch_size: 6
eval_batch_size: 2
num_epochs: 20
learning_rate: 1,00E-05
weight_decay: 0.01
generation_num_beams: 5
predict_with_generate: true
metric_for_best_model: accuracy 
seed: 42
max_source_len:	max_tokens_in_input_sentences # (auto-calculated + rounded up to even + 2)
max_target_len:	max_tokens_in_target_serialized_entities
generation_max_length: max_target_len

Inferece parameters for LLMs

do_sample: False
max_new_tokens: 512
top_p: 0.8
top_k: 20
few_shot_examples: 5

Finetuning hiperparameters for Qwen 3 4B

epochs: 5
optimizer: AdamW
scheduler: linear
batch_size: 2
grad_accum": 16
learning_rate: 2e-5
max_length: 4096
warmup_ratio: 0.05

Prompt for LLMs

Tarea:
Intifica en el texto médico las siguientes entidades
- EDAD: Hace referencia a la edad del paciente.
- SEXO: Hace referencia al sexo/género del paciente.
- ENFERMEDAD: Hace referencia a todas aquellas enfermedades perceptibles mediante imagen médica (ejemplo: tumor cerebral, derrame pleural, fractura ósea, etc.). Las enfermedades que no son diagnosticables mediante imagen médica no entran en esta categoría (ejemplo: diabetes, anemia, hipertensión arterial, etc.).
- PROCEDIMIENTO: Hace referencia a los procedimientos de imagen médica (ejemplo: radiografía, tomografía computarizada, resonancia magnética, ecografía, angiografía, etc.). Los procedimientos que no tengan relación con las imágenes médicas no entran en esta categoría (ejemplo: procedimientos quirúrgicos, tratamientos, medicamentos o exploraciones).
- O: No es ninguna entidad de las anteriores.

Reglas:
1. Añade tags al rededor de las entidades para anotarlas.
2. Si una misma entidad contiene conectores en su interior también forma parte de la entidad. Ejemplo: <ENFERMEDAD>cancer</ENFERMEDAD> <ENFERMEDAD>de</ENFERMEDAD> <ENFERMEDAD>hígado</ENFERMEDAD>

Ejemplo input:
Mujer de 45 años de edad con antecedentes de hepatocarcinoma e hipertensión arterial se realiza un TC.

Ejemplo output:
<SEXO>Mujer</SEXO> de <EDAD>45</EDAD> <EDAD>años</EDAD> de edad con antecedentes de </ENFERMEDAD>hepatocarcinoma</ENFERMEDAD> e hipertensión arterial se realiza un </PROCEDIMIENTO>TC</PROCEDIMIENTO>.

Metrics

Zero-shot

Model Precision Recall F1
MediPhi 4B 37.89 11.71 17.88
MedGemma 4B 64.73 9.40 16.41
Qwen 3 4B 32.33 15.08 20.57
MedGemma 27B 45.87 16.54 24.32
Qwen 3 30B 32.19 14.24 19.74
Gemini 2.5 Pro 49.08 64.60 55.78
Claude 4.5 Sonnet 63.13 49.52 55.50
GPT-5 (low) 57.03 55.03 56.01
NuNER 66.98 19.86 30.64
GLiNER-BioMed 49.51 31.06 38.17
GLiNER-X 47.41 32.41 38.50
Model Age Disease Procedure Sex
MediPhi 4B 65.66 0.56 3.14 62.32
MedGemma 4B 52.78 1.02 3.65 70.05
Qwen 3 4B 73.03 6.75 5.82 59.05
MedGemma 27B 68.07 11.04 9.23 68.83
Qwen 3 30B 46.58 8.91 11.33 63.49
Gemini 2.5 pro 90.15 41.75 69.78 92.36
Claude 4.5 Sonnet 85.63 40.36 66.22 76.52
GPT-5 (low) 95.52 42.29 60.85 87.80
NuNER 85.89 6.80 17.46 96.15
GLiNER-BioMed 91.07 16.20 37.11 94.42
GLiNER-X 92.73 22.20 32.08 84.41

Few-shot

Model Precision Recall F1
MediPhi 4B 27.96 19.41 22.92
MedGemma 4B 33.86 20.60 25.61
Qwen 3 4B 25.50 29.37 27.30
MedGemma 27B 43.60 43.73 43.66
Qwen 3 30B 33.77 36.07 34.88
Gemini 2.5 Pro 51.04 64.60 57.03
Claude 4.5 Sonnet 64.95 57.46 60.97
GPT-5 (low) 59.49 55.54 57.45
Model Age Disease Procedure Sex
MediPhi 4B 78.83 8.66 14.49 60.13
MedGemma 4B 79.86 9.94 21.86 73.73
Qwen 3 4B 82.43 14.23 26.45 72.65
MedGemma 27B 83.67 27.11 50.00 88.72
Qwen 3 30B 84.80 20.36 32.61 82.14
Gemini 2.5 pro 92.81 43.03 69.80 92.65
Claude 4.5 Sonnet 93.79 44.94 72.23 95.38
GPT-5 (low) 93.54 41.77 67.23 90.37

Fine-tuning

Model Precision Recall F1
Qwen 3 4B 68.16 36.75 47.75
mBERT 65.15 63.25 64.18
BioRoBERTa 68.21 71.24 69.69
EriBERTa 65.99 70.43 68.14
Medical-mT5 + List 81.97 82.96 82.40
Medical-mT5 + Tag 81.98 81.87 81.90
Model Age Disease Procedure Sex
Qwen 3 4B 69.66 34.17 57.53 74.88
mBERT 91.43 51.67 73.49 94.20
BioRoBERTa 92.22 58.91 77.85 96.92
EriBERTa 92.94 58.43 74.20 97.32
Medical-mT5 91.58 67.69 77.03 92.31

Citation

@inproceedings{platas-etal-2026-extracting,
  title = {Extracting Medical Image-Related Entities from Spanish Electronic Health Records Using NER Methods},
  author = {Platas, Alexander and Merino, Marcos and Zotova, Elena and Cuadros, Montse and López-Linares, Karen and Mendiola, Mikel Pérez de and Gálvez, María and Barba, Cristina and Asla, Antón},
  booktitle = {Proceedings of the Fifteenth Language Resources and Evaluation Conference (LREC 2026)},
  month = {May},
  year = {2026},
  pages = {10569--10578},
  address = {Palma, Mallorca, Spain},
  publisher = {European Language Resources Association (ELRA)},
  doi = {10.63317/4t6agzu5ygqr},
  abstract = {This paper presents a novel corpus in Spanish tailored for the extraction of medical image-related entities from radiological reports using Named Entity Recognition (NER) methods. The dataset was created by aggregating and refining multiple existing corpora, focusing on entities that can be visually interpreted in associated medical images. This resource aims to bridge the gap between natural language processing and computer vision in the biomedical domain. The study evaluates various NER methods, including encoder-only, encoder-decoder, and decoder-only architectures. It explores fine-tuning, zero-shot, and few-shot In-Context Learning (ICL) strategies to determine the most effective approach for entity extraction. The resulting dataset is publicly available.}
}

About

This repository presents a novel Spanish-language corpus designed for medical image-related entity extraction from radiological reports using Named Entity Recognition (NER) techniques.

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

 
 
 

Contributors