目录

大型语言模型基准测试综述《A Survey on Large Language Model Benchmarks.pdf》核心内容总结

一、论文基础信息

二、论文核心框架与内容

(一)引言:LLM 基准的重要性与挑战

(二)背景:LLM 与基准的发展历程

1. LLM 的四阶段演进

2. LLM 基准的两阶段演进

(三)通用能力基准(General Capabilities Benchmarks)

1. 语言核心(Linguistic Core)

2. 知识(Knowledge)

3. 推理(Reasoning)

(四)领域特定基准(Domain-Specific Benchmarks)

1. 自然科学(Natural Sciences)

2. 人文社科(Humanities & Social Sciences)

3. 工程技术(Engineering & Technology)

(五)目标特定基准(Target-specific Benchmarks)

1. 风险与可靠性(Risk & Reliability)

2. 智能体(Agent)

3. 其他(Others)

(六)结论:核心矛盾与未来方向

三、交流学习


大型语言模型基准测试综述《A Survey on Large Language Model Benchmarks.pdf》核心内容总结

一、论文基础信息

  1. 1. 标题:A Survey on Large Language Model Benchmarks
  2. 2. 作者团队:Shiwen Ni、Guhong Chen 等 12 家机构研究者(含中国科学院深圳先进技术研究院、南方科技大学、上海人工智能实验室等)
  3. 3. 发表信息:预印本(Preprint),arXiv:2508.15361v1 [cs.CL] 21 Aug 2025
  4. 4. 核心定位:首篇系统综述大型语言模型(LLM)基准测试的论文,覆盖 283 个代表性基准,建立分类框架并指出当前问题与未来方向。
  5. 5. 原文参考:https://arxiv.org/abs/2508.15361

二、论文核心框架与内容

(一)引言:LLM 基准的重要性与挑战

  1. 1. LLM 发展背景
    自 2017 年 Transformer 架构提出后,LLM(如 GPT 系列、LLaMA 系列、Qwen 系列)从基础自然语言处理(理解 / 生成)扩展到复杂逻辑推理、智能体交互,广泛落地于客服、教育、医疗、法律等领域,成为数字经济核心驱动力。
  2. 2. 基准的核心价值
    作为量化评估 LLM 性能的工具,基准不仅是衡量模型能力的核心手段,还能指导模型开发方向(如定位技术瓶颈)、建立用户信任与伦理合规(如验证安全性、公平性)。
  3. 3. 当前基准的三大挑战
    • • 数据污染:模型训练时接触基准数据,导致评分虚高,无法反映真实泛化能力;
    • • 静态评估局限:固定数据集无法模拟动态真实场景(如实时信息更新、多轮交互);
    • • 评估维度单一:过度依赖准确率、BLEU 等指标,难以衡量偏见、安全性、指令遵循等关键能力。
  4. 4. 论文三大贡献
    • • 首次将 283 个 LLM 基准归为 “通用能力、领域特定、目标特定” 三类;
    • • 从数据来源、格式、规模、评估方法等多视角分析基准设计动机与局限,提供可复用设计范式;
    • • 指出当前基准的核心问题:数据污染致评分虚高、文化 / 语言偏见致评估不公、缺乏 “过程可信度” 与 “动态环境” 评估。

(二)背景:LLM 与基准的发展历程

1. LLM 的四阶段演进
阶段 技术特点 代表成果 核心进步
统计语言模型(1950s-2010s) 基于 n-gram 共现统计,依赖独立假设 n-gram 模型、SRI-LM 首次用数学建模语言,无法捕捉长距离依赖
神经语言模型(2010s-2017) 用 RNN/LSTM 学习词的分布式表示 word2vec、ELMo 实现上下文相关词嵌入(如 “苹果” 多义区分)
预训练语言模型(2017-2020) Transformer 架构,“预训练 + 微调” 范式 BERT、GPT-1/2、T5 解决小数据任务性能差问题,全面超越传统模型
大型语言模型(2020 至今) 十亿 / 万亿级参数,遵循缩放定律,涌现零样本 / 少样本能力 GPT-3/4、LLaMA 2、Qwen 3 无需微调处理多任务,能力接近人类专家
2. LLM 基准的两阶段演进
阶段 时间 代表基准 评估重点 局限性
早期语言模型基准 2018-2020 GLUE、SuperGLUE、BERTScore 单任务自然语言理解(NLU) 任务单一、规模小,无法评估多任务 / 多领域能力
LLM 专用基准 2020 至今 MMLU、BIG-Bench、HELM、AGIEval 多任务(语言 / 知识 / 推理)、多领域、零样本场景 面临数据污染、静态评估、文化偏见等问题

(三)通用能力基准(General Capabilities Benchmarks)

评估 LLM 的 “基础素养”,覆盖语言核心、知识、推理三大维度,是衡量 LLM 通用性的核心依据。

1. 语言核心(Linguistic Core)

聚焦 LLM 对语言语法、语义、语用的掌握,经历五阶段演进:

阶段 时间 核心目标 代表基准 创新点
碎片化统一 2018 统一 NLU 任务评估 GLUE 整合 9 个英语 NLU 任务,暴露模型依赖词汇重叠的问题
对抗性升级 2019 防模型表面学习 SuperGLUE、HellaSwag、WinoGrande 设计语义合理但语用荒谬的干扰项,测试常识与代词歧义
多语言觉醒 2020 突破英语局限 CLUE(中文)、Xtreme(40 种语言) 发现模型英语优势无法迁移到小语种
生成范式转变 2019-2021 衡量语义等价性 BERTScore、Bartscore、DynaEval 用上下文嵌入计算语义相似度,用图模型评估对话连贯性
整体评估时代 2022 - 至今 动态、细粒度评估 HELM、BIG-Bench、MT-Bench 活基准持续更新场景,LLM-as-Judge 评分多轮对话
2. 知识(Knowledge)

评估 LLM 存储与提取真实世界知识的能力,从 “开放域检索” 演进到 “闭卷考试”:

演进阶段 核心思路 代表基准 特点
早期开放域 QA 依赖外部文档找答案 TriviaQA、NaturalQuestions 评估信息检索能力,数据来自维基百科
闭卷多学科评估 用预训练知识答题 MMLU 57 个学科多选择题,无参考文档,评估知识储备
高难度升级 提升知识深度与抗干扰性 MMLU-Pro、GPQA、SuperGPQA 增加选项数、设计 Google-Proof 题、覆盖 285 个研究生领域
3. 推理(Reasoning)

评估 LLM 运用知识解决问题的能力,分三类:

推理类型 核心目标 代表基准 任务示例
逻辑推理 验证形式逻辑遵循度 RuleTaker、ProofWriter、ZebraLogic 演绎推理(如 “所有鸟会飞→麻雀会飞”)、逻辑谜题求解
专业与常识推理 依赖常识 / 领域知识 StrategyQA、Corr2Cause、MathQA 常识问答(如 “夏天白天长的原因”)、因果区分、数学算术
应用与情境推理 解决真实复杂场景问题 HotpotQA、LiveBench、TextGames 多跳推理(如 “哈利波特作者国籍”)、实时私有查询、文本游戏交互

(四)领域特定基准(Domain-Specific Benchmarks)

评估 LLM 在专业领域的能力,需掌握领域知识与流程,覆盖自然科学、人文社科、工程技术三大领域。

1. 自然科学(Natural Sciences)

特点:逻辑严谨、结果可验证,需评估专业知识 + 推理能力:

子领域 代表基准 任务示例 核心要求
数学 GSM8K、MATH、FrontierMath 小学算术、二次方程求解、前沿数学猜想 防模板记忆(如 MATH-P 扰动题目),评估步骤严谨性
物理 PhysReason、PhysicsArena、FEABench 电路图电流计算、平抛运动建模、桥梁受力模拟 多模态理解(分析图表)、工具使用(有限元软件)
化学 ChemSafetyBench、ScholarChemQA 拒绝合成炸药请求、提取论文反应产率 安全性优先,评估文献理解与危险请求识别
生物 BioMaze、AutoBio 基因突变下游影响推理、设计 DNA 复制实验 知识图谱结合推理,评估实验设计能力
2. 人文社科(Humanities & Social Sciences)

特点:主观性强、场景依赖,需贴近行业流程:

子领域 代表基准 任务示例 核心要求
法律 LegalBench、CourtBench、CiteLaw 合同无效情形问答、模拟法庭辩论、生成借款合同 法条记忆 + 案例应用,评估文档规范性与辩论逻辑
知识产权 PatentEval、IPBench、IPEval 生成专利摘要、判断专利侵权、回答专利保护期 法律 + 技术双领域知识,多语言评估(中英)
教育 E-Eval、EduBench 讲解分数加减法、生成物理教案 分学生 / 教师导向场景,评估教学实用性
心理学 CPsyCoun、PsychoBench 多轮心理咨询对话、评估模型外向性 共情能力 + 专业知识,模拟人类心理测试
3. 工程技术(Engineering & Technology)

特点:结果可验证、功能导向,评估实用工具能力:

子领域 代表基准 任务示例 核心要求
软件工程 HumanEval、SWE-bench、CodeXGLUE 生成列表平均值函数、修复 GitHub Bug、写代码注释 代码可运行(Pass@k 指标)、修复成功率、注释准确性
电气工程 VerilogEval、CIRCUIT 生成 4 位加法器 Verilog 代码、设计低噪声放大器 代码可仿真、电路性能达标(如增益符合要求)
航空工程 Aviation-Benchmark、RepoSpace 解释襟翼作用、生成卫星控制代码 专业知识准确性、代码功能正确性

(五)目标特定基准(Target-specific Benchmarks)

聚焦 LLM 的特定目标或风险,确保应用中安全可靠,覆盖风险与可靠性、智能体(Agent)、其他特殊目标三类。

1. 风险与可靠性(Risk & Reliability)

评估 LLM 负面行为,是落地安全底线:

风险类型 代表基准 任务示例 评估指标
安全性 JailbreakBench、HarmBench、Do-Not-Answer 抵抗角色扮演越狱指令、拒绝制作炸弹请求 越狱成功率、有害请求拒绝率
幻觉 TruthfulQA、FActScore、MedHallu 识别 “地球平的” 误解、验证原子事实、检测虚假药物 事实错误率、医疗错误率
鲁棒性 AdvGLUE、IFEval、RoTBench 错字文本情感分析、遵循模糊指令、识别工具错误结果 性能下降幅度、指令遵循率、错误识别率
数据泄露 WikiMIA、C2LEVA、KoLA 检测背诵未公开维基文本、泄露 PII 信息 数据回忆率、PII 泄露率
2. 智能体(Agent)

评估 LLM 自主规划、工具使用、记忆能力,分四类能力:

能力类型 代表基准 任务示例 评估指标
特定能力 FlowBench、Mobile-Bench 规划旅行路线、控制手机发短信 规划完整性、任务成功率
综合能力 GAIA、TravelPlanner 查询会议截止日期 + 写投稿邮件、生成欧洲旅行计划 目标达成率、用户满意度
领域熟练度 ScienceAgentBench、AgentClinic 复现论文算法、模拟临床诊断 算法复现成功率、诊断准确率
安全风险 AgentHarm、SafeAgentBench 抵抗删除文件指令、规划化学品处理安全步骤 攻击成功率、安全步骤覆盖率
3. 其他(Others)

覆盖文化适配、情感、真实任务等小众目标:

目标类型 代表基准 任务示例 评估指标
文化适配 CDEval、NORMAD-ETI 理解日本茶道礼仪、符合部落习俗 文化理解准确率、内容适配度
情感智能 EmotionQueen、PET-Bench 共情失恋用户、记住用户偏好 共情得分、记忆一致性
真实任务 Shopping MMLU、TP-RAG 回答电商售后政策、生成个性化旅行计划 问答准确率、计划满意度

(六)结论:核心矛盾与未来方向

  1. 1. 核心矛盾
    • • 通用基准广度 vs 领域基准深度;
    • • 技术严谨性 vs 实际相关性;
    • • 静态评估 vs 动态场景。
  2. 2. 未来方向
    • • 动态化:建立活基准(如 HELM),定期更新任务防数据污染;
    • • 因果化:评估推理过程与决策逻辑,避免表面学习;
    • • 包容性:增加多语言、多文化内容,消除英语 / 西方偏见;
    • • 跨学科协作:联合 AI 研究者、领域专家、伦理学家设计基准。

三、交流学习

进一步交流学习,促进你我共同进步,可在下方回复联系!祝您前程似锦!

公众号:深瞳智检

Logo

技术共进,成长同行——讯飞AI开发者社区

更多推荐