Add LLMEval-Med leaderboard tab with 13 models across 5 medical dimensions

KongLongGeFDU · KongLongGeFDU · commit bfe514cb6ded · 2026-04-15T23:39:01.000+08:00
- 13 models: DeepSeek-R1, Qwen2.5, GPT-4o, o1-preview, Baichuan-M1, HuatuoGPT, etc.
- 5 dimensions: MK, MLU, MR, MSE, MTG (usability rates %)
- Filter by model category (Open-source / Closed-source / Specialized)
- Sortable columns, color-coded scores
- Updated About section with Med evaluation methodology

Made-with: Cursor
diff --git a/src/app/leaderboard/page.tsx b/src/app/leaderboard/page.tsx
@@ -4,6 +4,7 @@ import { useState } from "react";
 import { LeaderboardTable } from "@/components/LeaderboardTable";
 import { Eval1Table } from "@/components/Eval1Table";
 import { Eval2Table } from "@/components/Eval2Table";
+import { MedTable } from "@/components/MedTable";
 
 const tabs = [
   {
@@ -12,6 +13,12 @@ const tabs = [
     badge: "ACL 2026",
     description: "220K generative questions across 13 academic disciplines. Nearly 60 models evaluated over a 30-month longitudinal study.",
   },
+  {
+    id: "med",
+    label: "LLMEval-Med",
+    badge: "EMNLP 2025",
+    description: "2,996 physician-validated clinical questions across 5 medical dimensions. 13 models evaluated (open-source, closed-source, specialized).",
+  },
   {
     id: "eval1",
     label: "LLMEval-1",
@@ -71,6 +78,7 @@ export default function LeaderboardPage() {
 
       {/* Tab content */}
       {activeTab === "fair" && <LeaderboardTable />}
+      {activeTab === "med" && <MedTable />}
       {activeTab === "eval1" && <Eval1Table />}
       {activeTab === "eval2" && <Eval2Table />}
 
@@ -84,6 +92,13 @@ export default function LeaderboardPage() {
             Absolute score (0–100) represents raw performance; relative score measures the gap to the current SOTA model.
             Discipline scores use a 10-point scale. All evaluations use GPT-4 Turbo as the judge with a 0–3 point rubric per question.
           </p>
+          <p>
+            <strong className="text-foreground">LLMEval-Med</strong> (EMNLP 2025) — 2,996 questions from real-world electronic health records
+            and expert-designed clinical scenarios across 5 dimensions: Medical Knowledge (MK), Medical Language Understanding (MLU),
+            Medical Reasoning (MR), Medical Safety & Ethics (MSE), and Medical Text Generation (MTG).
+            Scores represent usability rates (%) — the proportion of responses scoring 4+ on a 0–5 scale (automated) or 5+ on a 0–7 scale (MTG, human-evaluated).
+            Human-machine agreement rate: 92.36%.
+          </p>
           <p>
             <strong className="text-foreground">LLMEval-1</strong> (AAAI 2024) — 17 categories, 453 questions evaluated on five dimensions:
             correctness, fluency, informativeness, logic, and harmlessness (0–3 scale). 2,186 public annotators contributed 243,337 annotations.
diff --git a/src/components/MedTable.tsx b/src/components/MedTable.tsx
@@ -0,0 +1,156 @@
+"use client";
+
+import { useState, useMemo } from "react";
+import {
+  useReactTable,
+  getCoreRowModel,
+  getSortedRowModel,
+  getFilteredRowModel,
+  flexRender,
+  type ColumnDef,
+  type SortingState,
+} from "@tanstack/react-table";
+import { medData, type MedScore } from "@/data/leaderboard-med";
+
+function ScoreBadge({ score }: { score: number }) {
+  const color =
+    score >= 60
+      ? "text-green-600 dark:text-green-400"
+      : score >= 45
+        ? "text-blue-600 dark:text-blue-400"
+        : score >= 25
+          ? "text-yellow-600 dark:text-yellow-400"
+          : "text-muted-foreground";
+  return <span className={`font-mono text-sm font-medium ${color}`}>{score.toFixed(2)}</span>;
+}
+
+const columns: ColumnDef<MedScore>[] = [
+  {
+    id: "rank",
+    header: "#",
+    cell: ({ row }) => {
+      const rank = row.index + 1;
+      const badge =
+        rank === 1
+          ? "bg-yellow-100 text-yellow-800 dark:bg-yellow-900/30 dark:text-yellow-400"
+          : rank === 2
+            ? "bg-gray-100 text-gray-700 dark:bg-gray-800 dark:text-gray-300"
+            : rank === 3
+              ? "bg-orange-100 text-orange-700 dark:bg-orange-900/30 dark:text-orange-400"
+              : "bg-muted text-muted-foreground";
+      return (
+        <span className={`inline-flex h-7 w-7 items-center justify-center rounded-full text-xs font-bold ${badge}`}>
+          {rank}
+        </span>
+      );
+    },
+    size: 50,
+  },
+  {
+    accessorKey: "model",
+    header: "Model",
+    cell: ({ row }) => (
+      <div>
+        <span className="font-semibold text-foreground">{row.original.model}</span>
+        <span
+          className={`ml-2 inline-flex rounded-full px-1.5 py-0.5 text-[10px] font-medium ${
+            row.original.category === "Open-source"
+              ? "bg-green-100 text-green-700 dark:bg-green-900/30 dark:text-green-400"
+              : row.original.category === "Closed-source"
+                ? "bg-purple-100 text-purple-700 dark:bg-purple-900/30 dark:text-purple-400"
+                : "bg-blue-100 text-blue-700 dark:bg-blue-900/30 dark:text-blue-400"
+          }`}
+        >
+          {row.original.category}
+        </span>
+      </div>
+    ),
+    size: 220,
+  },
+  { accessorKey: "overall", header: "Overall", cell: ({ getValue }) => <ScoreBadge score={getValue<number>()} />, size: 80 },
+  { accessorKey: "mk", header: "MK", cell: ({ getValue }) => <ScoreBadge score={getValue<number>()} />, size: 70 },
+  { accessorKey: "mlu", header: "MLU", cell: ({ getValue }) => <ScoreBadge score={getValue<number>()} />, size: 70 },
+  { accessorKey: "mr", header: "MR", cell: ({ getValue }) => <ScoreBadge score={getValue<number>()} />, size: 70 },
+  { accessorKey: "mse", header: "MSE", cell: ({ getValue }) => <ScoreBadge score={getValue<number>()} />, size: 70 },
+  { accessorKey: "mtg", header: "MTG", cell: ({ getValue }) => <ScoreBadge score={getValue<number>()} />, size: 70 },
+];
+
+export function MedTable() {
+  const [sorting, setSorting] = useState<SortingState>([{ id: "overall", desc: true }]);
+  const [categoryFilter, setCategoryFilter] = useState<string | null>(null);
+
+  const filteredData = useMemo(
+    () => (categoryFilter ? medData.filter((d) => d.category === categoryFilter) : medData),
+    [categoryFilter]
+  );
+
+  const table = useReactTable({
+    data: filteredData,
+    columns,
+    state: { sorting },
+    onSortingChange: setSorting,
+    getCoreRowModel: getCoreRowModel(),
+    getSortedRowModel: getSortedRowModel(),
+    getFilteredRowModel: getFilteredRowModel(),
+  });
+
+  return (
+    <div>
+      <div className="mb-6 flex flex-wrap items-center gap-2">
+        {[null, "Open-source", "Closed-source", "Specialized"].map((cat) => (
+          <button
+            key={cat ?? "all"}
+            onClick={() => setCategoryFilter(cat)}
+            className={`rounded-lg px-3 py-1.5 text-sm font-medium transition-colors ${
+              categoryFilter === cat
+                ? "bg-accent text-accent-foreground"
+                : "bg-muted text-muted-foreground hover:text-foreground"
+            }`}
+          >
+            {cat ?? "All"}
+          </button>
+        ))}
+      </div>
+
+      <div className="overflow-x-auto rounded-xl border border-border">
+        <table className="w-full text-left">
+          <thead>
+            {table.getHeaderGroups().map((headerGroup) => (
+              <tr key={headerGroup.id} className="border-b border-border bg-muted/50">
+                {headerGroup.headers.map((header) => (
+                  <th
+                    key={header.id}
+                    onClick={header.column.getToggleSortingHandler()}
+                    className="cursor-pointer px-3 py-3 text-xs font-semibold uppercase tracking-wider text-muted-foreground transition-colors hover:text-foreground select-none"
+                    style={{ width: header.getSize() }}
+                  >
+                    <div className="flex items-center gap-1">
+                      {flexRender(header.column.columnDef.header, header.getContext())}
+                      {{ asc: " ↑", desc: " ↓" }[header.column.getIsSorted() as string] ?? ""}
+                    </div>
+                  </th>
+                ))}
+              </tr>
+            ))}
+          </thead>
+          <tbody>
+            {table.getRowModel().rows.map((row) => (
+              <tr key={row.id} className="border-b border-border transition-colors last:border-0 hover:bg-muted/30">
+                {row.getVisibleCells().map((cell) => (
+                  <td key={cell.id} className="px-3 py-2.5">
+                    {flexRender(cell.column.columnDef.cell, cell.getContext())}
+                  </td>
+                ))}
+              </tr>
+            ))}
+          </tbody>
+        </table>
+      </div>
+      <p className="mt-4 text-xs text-muted-foreground">
+        Usability rates (%) across 5 medical dimensions. MK = Medical Knowledge, MLU = Medical Language Understanding,
+        MR = Medical Reasoning, MSE = Medical Safety & Ethics, MTG = Medical Text Generation.
+        Data from <a href="https://github.com/llmeval/LLMEval-Med" target="_blank" rel="noopener noreferrer" className="text-accent hover:underline">LLMEval-Med</a> (EMNLP 2025).
+      </p>
+    </div>
+  );
+}
diff --git a/src/data/leaderboard-med.ts b/src/data/leaderboard-med.ts
@@ -0,0 +1,26 @@
+export interface MedScore {
+  model: string;
+  category: "Open-source" | "Closed-source" | "Specialized";
+  overall: number;
+  mk: number;
+  mlu: number;
+  mr: number;
+  mse: number;
+  mtg: number;
+}
+
+export const medData: MedScore[] = [
+  { model: "DeepSeek-R1", category: "Open-source", overall: 64.23, mk: 84.16, mlu: 69.64, mr: 63.40, mse: 59.63, mtg: 44.33 },
+  { model: "Qwen2.5-72B", category: "Open-source", overall: 51.53, mk: 55.56, mlu: 47.42, mr: 50.83, mse: 60.55, mtg: 43.30 },
+  { model: "Qwen2.5-32B", category: "Open-source", overall: 48.87, mk: 52.25, mlu: 46.48, mr: 42.24, mse: 61.11, mtg: 42.27 },
+  { model: "DeepSeek-V3", category: "Open-source", overall: 48.03, mk: 51.06, mlu: 53.68, mr: 38.24, mse: 47.71, mtg: 49.48 },
+  { model: "Mistral-24B", category: "Open-source", overall: 46.42, mk: 45.15, mlu: 43.35, mr: 28.10, mse: 50.15, mtg: 22.68 },
+  { model: "Llama-3.1-8B", category: "Open-source", overall: 26.65, mk: 16.78, mlu: 20.50, mr: 18.63, mse: 25.38, mtg: 29.90 },
+  { model: "o1-preview", category: "Closed-source", overall: 61.23, mk: 65.25, mlu: 63.85, mr: 62.75, mse: 64.81, mtg: 49.48 },
+  { model: "GPT-4o", category: "Closed-source", overall: 58.73, mk: 61.23, mlu: 56.34, mr: 55.23, mse: 56.27, mtg: 64.58 },
+  { model: "o1-mini", category: "Closed-source", overall: 57.86, mk: 56.03, mlu: 60.09, mr: 60.40, mse: 63.30, mtg: 49.48 },
+  { model: "Baichuan-M1", category: "Specialized", overall: 60.34, mk: 70.69, mlu: 63.22, mr: 62.09, mse: 50.76, mtg: 54.95 },
+  { model: "Baichuan-M1-14B", category: "Specialized", overall: 55.43, mk: 62.88, mlu: 40.53, mr: 55.23, mse: 70.03, mtg: 48.45 },
+  { model: "HuatuoGPT-o1-72B", category: "Specialized", overall: 52.27, mk: 53.43, mlu: 49.45, mr: 56.86, mse: 56.27, mtg: 45.36 },
+  { model: "DISC-MedLLM", category: "Specialized", overall: 11.34, mk: 7.09, mlu: 10.02, mr: 7.52, mse: 23.24, mtg: 2.06 },
+];