#Benchmark and Data Preparation ## 目标 准备并整理幻觉研究所需的 benchmark 数据集,统一格式,确保后续分析与模型评估可复现。 --- ## 任务(Checklist) - [ ] 下载公开 VLM benchmark 数据集 - [ ] **VQA v2.0** - [ ] **CHAIR** - [ ] **POPE** - [ ] **ROPE** - [ ] **Llava-Bench-in-the-Wild** - [ ] 确认数据集许可证和使用范围 - [ ] 编写数据预处理脚本(转换为 JSONL 或 HuggingFace Datasets 格式) - [ ] 清洗数据(去除损坏图像、异常样本) - [ ] 构建 toy dataset(小规模,用于快速调试) - [ ] 将数据存放至 `data/` 目录,并建立版本控制策略(如 `data/raw/`, `data/processed/`) - [ ] 更新 README,记录下载与预处理方法 --- ## 交付物 - 已下载的 benchmark 数据集 - 格式化后的统一数据文件(JSONL/HF Dataset) - Toy dataset 示例 - 数据准备文档(数据来源、预处理方式、存储路径)
#Benchmark and Data Preparation
目标
准备并整理幻觉研究所需的 benchmark 数据集,统一格式,确保后续分析与模型评估可复现。
任务(Checklist)
data/目录,并建立版本控制策略(如data/raw/,data/processed/)交付物