注意: 英文版 README 请参阅 README.md。
- 🏆 [2024-03-24] 论文 "LLMEval: A Preliminary Study on How to Evaluate Large Language Models" 被 AAAI 2024 录用。
- 📊 [2023-07] LLMEval-2 评测结果发布,涵盖 12 个学科领域的 20 个大语言模型评测。
LLMEval-2 是 LLMEval(AAAI 2024)论文的第二期评测数据集。与聚焦通用能力的第一期不同,LLMEval-2 以专业领域评测为核心,涵盖 12 个学科领域,共约 480 题(含客观题和主观题)。
- 12 个学科领域 — 由学科专家基于外部数据库构造领域知识测试集
- 双题型设计 — 每学科约 25–30 道客观题 + 10–15 道主观题
- 实用导向 — 基于本科生和研究生在学习中希望借助大模型解决的真实任务
- 20 个模型 — 全面比较,同时提供人工评测与 GPT-4 自动评测结果
| 题目类型 | 评价维度 | 分值 | 评价标准描述 |
|---|---|---|---|
| 客观题 | 答案准确性 | 3 分 | 回答内容是否正确 |
| 客观题 | 解释正确性 | 2 分 | 解释是否生成错误内容 |
| 主观题 | 准确性 | 5 分 | 回答内容是否有错 |
| 主观题 | 信息量 | 3 分 | 回答信息是否充足 |
| 主观题 | 流畅性 | 3 分 | 回答格式语法是否正确 |
| 主观题 | 逻辑性 | 3 分 | 回答逻辑是否严谨 |
| 模型名称 | 客观·准确 | 客观·解释 | 流畅性 | 准确率 | 逻辑性 | 信息量 | 排名 | 总分 |
|---|---|---|---|---|---|---|---|---|
| GPT-4 | 2.378 (2.395) | 1.670 (1.595) | 2.895 (2.989) | 4.260 (4.545) | 2.779 (2.903) | 2.691 (2.886) | 1 (1) | 86.72 (89.54) |
| GPT-3.5 | 2.160 (2.138) | 1.542 (1.503) | 2.861 (3.000) | 3.822 (4.295) | 2.694 (2.818) | 2.489 (2.750) | 2 (2) | 80.71 (84.69) |
| 讯飞星火 | 2.114 (2.243) | 1.557 (1.632) | 2.815 (2.977) | 3.750 (4.193) | 2.560 (2.739) | 2.196 (2.716) | 3 (5) | 78.05 (82.26) |
| Baichuan-13B-Chat | 2.003 (2.013) | 1.428 (1.441) | 2.847 (2.949) | 3.727 (4.102) | 2.631 (2.778) | 2.472 (2.756) | 4 (6) | 77.51 (81.82) |
| MiniMax-Abab5 | 1.922 (1.928) | 1.443 (1.493) | 2.878 (2.989) | 3.800 (3.977) | 2.656 (2.722) | 2.478 (2.699) | 5 (7) | 77.47 (80.64) |
| NewBing | 2.197 (2.211) | 1.583 (1.615) | 2.796 (2.989) | 3.608 (3.875) | 2.558 (2.773) | 2.061 (2.511) | 6 (4) | 77.28 (82.63) |
| Claude | 1.923 (2.066) | 1.463 (1.576) | 2.680 (2.977) | 3.597 (4.125) | 2.613 (2.801) | 2.414 (2.710) | 7 (3) | 75.57 (83.49) |
| MOSS-Mars | 1.961 (1.967) | 1.465 (1.470) | 2.737 (3.000) | 3.480 (3.807) | 2.508 (2.648) | 2.229 (2.534) | 8 (9) | 74.41 (79.21) |
| 天工 | 1.933 (1.961) | 1.354 (1.500) | 2.774 (2.983) | 3.520 (3.807) | 2.576 (2.682) | 2.339 (2.523) | 9 (8) | 74.36 (79.31) |
| Ziya-LLaMA-13B | 1.681 (1.592) | 1.306 (1.201) | 2.804 (3.000) | 3.207 (3.364) | 2.473 (2.585) | 2.120 (2.278) | 10 (13) | 69.48 (70.92) |
注:括号内数值为 GPT-4 自动评测的打分及排名。全部 20 个模型结果详见 LLMEVAL-2.pdf。
完整评测报告:LLMEVAL-2.pdf
| 项目 | 说明 | 链接 |
|---|---|---|
| LLMEval(AAAI 2024) | 主论文,包含方法论与分析 | arXiv |
| LLMEval-1 | 第一期:通用能力评测 | GitHub |
| LLMEval-Fair(ACL 2026) | 鲁棒公平评测,20 万+题 | GitHub |
| LLMEval-Med(EMNLP 2025) | 医学大模型基准 | GitHub |
| 官方网站 | 全部项目与排行榜 | llmeval.com |
@inproceedings{zhang2024llmeval,
title = {LLMEval: A Preliminary Study on How to Evaluate Large Language Models},
author = {Yue Zhang and Ming Zhang and Haipeng Yuan and Shichun Liu and Yongyao Shi and Tao Gui and Qi Zhang and Xuanjing Huang},
booktitle = {Proceedings of the AAAI Conference on Artificial Intelligence},
volume = {38},
number = {17},
pages = {19615--19622},
year = {2024},
doi = {10.1609/aaai.v38i17.29934}
}本项目已经向公众开放,欢迎参与我们的评测。
- 网站:http://llmeval.com/
- 邮箱:mingzhang23@m.fudan.edu.cn
- 微信:zanyingluan
LLMEval | 复旦大学 NLP 实验室
