PlateerLab
diff --git a/‎.gitignore‎
Lines changed: 2 additions & 0 deletions b/‎.gitignore‎
Lines changed: 2 additions & 0 deletions
diff --git a/‎CLAUDE.md‎
Lines changed: 27 additions & 14 deletions b/‎CLAUDE.md‎
Lines changed: 27 additions & 14 deletions
diff --git a/‎tests/benchmark/download_datasets.py‎
Lines changed: 192 additions & 0 deletions b/‎tests/benchmark/download_datasets.py‎
Lines changed: 192 additions & 0 deletions
@@ -1,3 +1,5 @@
 .env
 __pycache__/
 *.pyc
+tests/benchmark/data/*.json
+.claude/
@@ -80,26 +80,39 @@ tests/benchmark/
     ├── enterprise_scenario.json   # 자체 시나리오 v1 (12 지식 + 4 세션 + 15 쿼리)
     ├── ko_strategyqa.json         # MTEB Ko-StrategyQA (9.2K corpus, 592 queries)
     ├── autorag_retrieval.json     # MTEB AutoRAGRetrieval (720 corpus, 114 queries)
-    └── klue_mrc.json              # KLUE-MRC (5.8K corpus, 5.8K queries)
+    ├── klue_mrc.json              # KLUE-MRC (5.8K corpus, 5.8K queries)
+    ├── nfcorpus.json              # BeIR NFCorpus (3.6K corpus, 의료/영양)
+    ├── scifact.json               # BeIR SciFact (5.2K corpus, 과학 fact-checking)
+    ├── fiqa.json                  # BeIR FiQA (57.6K corpus, 금융 QA)
+    ├── miracl_retrieval_ko.json   # MTEB MIRACLRetrieval-ko (10K sampled, 위키)
+    ├── multilongdoc_ko.json       # MTEB MultiLongDocRetrieval-ko (6.2K, 장문서)
+    └── xpqa_ko.json               # MTEB XPQARetrieval-ko (889 corpus, 다도메인)
 ```
 
 ### 외부 데이터셋 다운로드
 ```bash
 uv run python tests/benchmark/download_datasets.py
 ```
-- MIRACL, Mr. TyDi는 HuggingFace datasets 호환 이슈로 현재 skip
-
-### 외부 데이터셋 벤치마크 결과 (FTS only, MemoryBackend)
-| 데이터셋 | Corpus | Queries | MRR | nDCG@10 | R@10 |
-|----------|--------|---------|-----|---------|------|
-| Allganize RAG-Eval | 300 | 300 | 0.796 | 0.811 | 0.863 |
-| Allganize rag-ko | 200 | 200 | 0.780 | 0.797 | 0.855 |
-| HotPotQA-24 | 226 | 24 | 0.754 | 0.636 | 0.729 |
-| HotPotQA-200 | 1990 | 200 | 0.742 | 0.599 | 0.652 |
-| AutoRAGRetrieval | 720 | 114 | 0.646 | 0.681 | 0.798 |
-| KLUE-MRC | 500 | 100 | 0.607 | 0.643 | 0.760 |
-| PublicHealthQA | 77 | 77 | 0.342 | 0.390 | 0.558 |
-| Ko-StrategyQA | 9,251 | 100 | 0.315 | 0.261 | 0.293 |
+- MIRACL (레거시 형식), Mr. TyDi는 HuggingFace datasets 호환 이슈로 skip
+- MIRACLRetrieval (mteb 형식)은 정상 동작 (1.49M → 10K 샘플링)
+
+### 외부 데이터셋 벤치마크 결과 (FTS only, MemoryBackend, 14종)
+| 데이터셋 | 언어 | Corpus | Queries | MRR | nDCG@10 | R@10 |
+|----------|------|--------|---------|-----|---------|------|
+| Allganize RAG-Eval | KO | 300 | 300 | 0.796 | 0.808 | 0.853 |
+| MIRACLRetrieval | KO | 10,000 | 100 | 0.792 | 0.480 | 0.291 |
+| Allganize rag-ko | KO | 200 | 200 | 0.782 | 0.800 | 0.865 |
+| HotPotQA-24 | EN | 226 | 24 | 0.752 | 0.636 | 0.729 |
+| HotPotQA-200 | EN | 1,990 | 200 | 0.742 | 0.604 | 0.665 |
+| AutoRAGRetrieval | KO | 720 | 114 | 0.647 | 0.681 | 0.798 |
+| KLUE-MRC | KO | 500 | 100 | 0.607 | 0.643 | 0.760 |
+| NFCorpus | EN | 3,633 | 100 | 0.443 | 0.223 | 0.119 |
+| SciFact | EN | 5,183 | 100 | 0.415 | 0.430 | 0.513 |
+| PublicHealthQA | KO | 77 | 77 | 0.346 | 0.394 | 0.571 |
+| Ko-StrategyQA | KO | 9,251 | 100 | 0.317 | 0.260 | 0.292 |
+| XPQARetrieval | KO | 889 | 654 | 0.167 | 0.161 | 0.199 |
+| FiQA | EN | 57,638 | 100 | 0.132 | 0.103 | 0.154 |
+| MultiLongDocRetrieval | KO | 6,176 | 100 | 0.070 | 0.098 | 0.200 |
 
 ### 자체 시나리오 벤치마크 결과 (v0.5.0 + 검색 개선)
 | 지표 | Baseline | 개선 후 |
 
@@ -379,6 +379,187 @@ def _build_subset(selected: list[dict]) -> tuple[dict, dict, dict]:
           f"qrels={sum(len(v) for v in qrels_24.values())})")
 
 
+def _load_multilingual_beir_dataset(
+    hf_path: str,
+    name: str,
+    out_file: str,
+    lang_prefix: str,
+    *,
+    max_corpus: int = 0,
+) -> None:
+    """다국어 BeIR 형식 데이터셋 로드 (ko-corpus, ko-queries, ko-qrels 등)."""
+    from datasets import get_dataset_split_names, load_dataset
+
+    print(f"Downloading {name}...")
+
+    corpus_config = f"{lang_prefix}-corpus"
+    queries_config = f"{lang_prefix}-queries"
+    qrels_config = f"{lang_prefix}-qrels"
+
+    # corpus
+    try:
+        corpus_split = get_dataset_split_names(hf_path, corpus_config)[0]
+    except Exception:
+        print(f"  SKIP: {name} — config '{corpus_config}' not available")
+        return
+    corpus_ds = load_dataset(hf_path, corpus_config, split=corpus_split)
+    corpus = {}
+    id_key = "_id" if "_id" in corpus_ds.column_names else "id"
+    for row in corpus_ds:
+        corpus[str(row[id_key])] = {"title": row.get("title", ""), "text": row.get("text", "")}
+
+    # queries
+    queries_split = get_dataset_split_names(hf_path, queries_config)[0]
+    queries_ds = load_dataset(hf_path, queries_config, split=queries_split)
+    queries = {}
+    q_id_key = "_id" if "_id" in queries_ds.column_names else "id"
+    for row in queries_ds:
+        queries[str(row[q_id_key])] = row.get("text", "")
+
+    # qrels
+    qrels_split = get_dataset_split_names(hf_path, qrels_config)[0]
+    qrels_ds = load_dataset(hf_path, qrels_config, split=qrels_split)
+    qrels: dict[str, dict[str, int]] = {}
+    for row in qrels_ds:
+        qid = str(row.get("query-id", ""))
+        cid = str(row.get("corpus-id", ""))
+        score = row.get("score", 1)
+        if qid and cid:
+            qrels.setdefault(qid, {})[cid] = score
+
+    # 대규모 corpus 샘플링: qrels 관련 문서 + 랜덤 negative
+    if max_corpus > 0 and len(corpus) > max_corpus:
+        import random
+        random.seed(42)
+        relevant_ids = set()
+        for rels in qrels.values():
+            relevant_ids.update(rels.keys())
+
+        sampled_corpus = {cid: corpus[cid] for cid in relevant_ids if cid in corpus}
+
+        remaining = [cid for cid in corpus if cid not in relevant_ids]
+        n_neg = max_corpus - len(sampled_corpus)
+        if n_neg > 0 and remaining:
+            neg_sample = random.sample(remaining, min(n_neg, len(remaining)))
+            for cid in neg_sample:
+                sampled_corpus[cid] = corpus[cid]
+
+        print(f"  Sampled corpus: {len(corpus)} → {len(sampled_corpus)} "
+              f"(relevant={len(relevant_ids & set(corpus.keys()))}, negative={len(sampled_corpus) - len(relevant_ids & set(sampled_corpus.keys()))})")
+        corpus = sampled_corpus
+
+    out = {
+        "name": name,
+        "source": hf_path,
+        "corpus_size": len(corpus),
+        "query_size": len(queries),
+        "qrels_size": sum(len(v) for v in qrels.values()),
+        "corpus": corpus,
+        "queries": queries,
+        "qrels": qrels,
+    }
+    path = DATA_DIR / out_file
+    with open(path, "w") as f:
+        json.dump(out, f, ensure_ascii=False)
+    print(f"  Saved: {path} (corpus={len(corpus)}, queries={len(queries)}, qrels={sum(len(v) for v in qrels.values())})")
+
+
+# ── BeIR 영문 데이터셋 ──
+
+
+def _load_mteb_beir_dataset(hf_path: str, name: str, out_file: str, *, qrels_split: str = "test") -> None:
+    """MTEB BeIR 형식 데이터셋 — corpus/queries config + default config(=qrels)."""
+    from datasets import load_dataset
+
+    print(f"Downloading {name}...")
+
+    # corpus
+    corpus_ds = load_dataset(hf_path, "corpus", split="corpus")
+    corpus = {}
+    for row in corpus_ds:
+        corpus[str(row["_id"])] = {"title": row.get("title", ""), "text": row.get("text", "")}
+
+    # queries
+    queries_ds = load_dataset(hf_path, "queries", split="queries")
+    queries = {}
+    for row in queries_ds:
+        queries[str(row["_id"])] = row.get("text", "")
+
+    # qrels (default config, test split)
+    qrels_ds = load_dataset(hf_path, "default", split=qrels_split)
+    qrels: dict[str, dict[str, int]] = {}
+    for row in qrels_ds:
+        qid = str(row.get("query-id", ""))
+        cid = str(row.get("corpus-id", ""))
+        score = row.get("score", 1)
+        if qid and cid:
+            qrels.setdefault(qid, {})[cid] = int(score)
+
+    out = {
+        "name": name,
+        "source": hf_path,
+        "corpus_size": len(corpus),
+        "query_size": len(queries),
+        "qrels_size": sum(len(v) for v in qrels.values()),
+        "corpus": corpus,
+        "queries": queries,
+        "qrels": qrels,
+    }
+    path = DATA_DIR / out_file
+    with open(path, "w") as f:
+        json.dump(out, f, ensure_ascii=False)
+    print(f"  Saved: {path} (corpus={len(corpus)}, queries={len(queries)}, qrels={sum(len(v) for v in qrels.values())})")
+
+
+def download_nfcorpus() -> None:
+    """NFCorpus — 의료/영양 도메인 (MTEB BeIR)."""
+    _load_mteb_beir_dataset("mteb/NFCorpus", "NFCorpus", "nfcorpus.json")
+
+
+def download_scifact() -> None:
+    """SciFact — 과학적 주장 검증 (MTEB BeIR)."""
+    _load_mteb_beir_dataset("mteb/SciFact", "SciFact", "scifact.json")
+
+
+def download_fiqa() -> None:
+    """FiQA — 금융 QA (MTEB BeIR, 57K corpus)."""
+    _load_mteb_beir_dataset("mteb/FiQA", "FiQA", "fiqa.json")
+
+
+# ── MTEB 한국어 데이터셋 ──
+
+
+def download_miracl_retrieval_ko() -> None:
+    """MIRACLRetrieval Korean — MTEB 핵심 한국어 검색 벤치마크 (1.49M corpus → 샘플링)."""
+    _load_multilingual_beir_dataset(
+        "mteb/MIRACLRetrieval",
+        "MIRACLRetrieval-ko",
+        "miracl_retrieval_ko.json",
+        "ko",
+        max_corpus=10000,
+    )
+
+
+def download_multilongdoc_ko() -> None:
+    """MultiLongDocRetrieval Korean — 장문서 검색 벤치마크."""
+    _load_multilingual_beir_dataset(
+        "mteb/MultiLongDocRetrieval",
+        "MultiLongDocRetrieval-ko",
+        "multilongdoc_ko.json",
+        "ko",
+    )
+
+
+def download_xpqa_ko() -> None:
+    """XPQARetrieval Korean — 다도메인 한국어 검색."""
+    _load_multilingual_beir_dataset(
+        "mteb/XPQARetrieval",
+        "XPQARetrieval-ko",
+        "xpqa_ko.json",
+        "kor-kor",
+    )
+
+
 def download_publichealthqa_ko() -> None:
     """PublicHealthQA Korean — 의료/공중보건 도메인 (BeIR 형식, korean- prefix)."""
     from datasets import load_dataset
@@ -426,6 +607,7 @@ def main() -> None:
     print("Downloading benchmark datasets from HuggingFace")
     print("=" * 60)
 
+    # 기존 데이터셋
     download_ko_strategyqa()
     download_autorag_retrieval()
     download_miracl_ko()
@@ -436,6 +618,16 @@ def main() -> None:
     download_publichealthqa_ko()
     download_hotpotqa()
 
+    # 신규: BeIR 영문 3종
+    download_nfcorpus()
+    download_scifact()
+    download_fiqa()
+
+    # 신규: MTEB 한국어 3종
+    download_miracl_retrieval_ko()
+    download_multilongdoc_ko()
+    download_xpqa_ko()
+
     print("\n" + "=" * 60)
     print("All datasets downloaded!")
     print("=" * 60)