大模型评测基准全解析：MMLU、HumanEval、HELM与基准失效问题

2026年6月3日 AI科研

大语言模型的评测是一个在技术上和哲学上都颇为复杂的问题：数字化的基准分数能否准确反映模型在真实场景中的能力？如何评测”通用智能”而非对特定测试集的记忆？随着LLM能力快速提升，这些问题从学术探讨变成了具有实际影响的工程和商业问题。

MMLU：知识广度的代理指标

MMLU（Massive Multitask Language Understanding，大规模多任务语言理解）是目前引用最多的LLM能力评测基准之一，由UC Berkeley开发，包含57个学科领域的约14,000道多选题，覆盖数学、物理、历史、法律、医学等，测试模型的广域知识覆盖度。

GPT-4在MMLU上的得分约为86%，Claude 3 Opus约87%，Llama 3 405B约88%（各方评测数字因测试条件不同有差异）。MMLU的局限：是选择题而非开放性任务；部分题目可能出现在预训练语料中（数据污染）；高分模型可能通过模式匹配而非真实推理达到高分。

HumanEval：代码生成能力的黄金标准

HumanEval（OpenAI，2021）包含164道Python编程题，以测试案例验证生成代码的正确性（Pass@k指标——在k次尝试中至少有一次通过所有测试案例的概率）。GPT-4约为85%，Claude 3.5 Sonnet约90%，但测试案例泄露到预训练数据中的问题同样存在，且题目难度较低（主要为算法入门级）。

SWE-bench（GitHub真实Issue修复基准）是目前被认为难度更高、更接近真实软件工程任务的代码评测基准，顶级模型的通过率约13-50%，与HumanEval相比更能区分模型能力。

HELM与全面评测框架

斯坦福的HELM（Holistic Evaluation of Language Models）试图提供多维度的评测框架，不只关注准确率，还包含校准度（Calibration，模型对自己的置信度是否准确）、鲁棒性（Robustness）、公平性（Fairness）和效率，是目前最系统性的LLM综合评测平台之一。

基准失效（Benchmark Saturation）是当前评测领域最重要的元问题：当顶级模型在主要基准上接近人类水准或超越人类时，这些基准失去了区分不同模型的能力，需要不断开发更难的新基准。MMLU-Pro、GPQA（研究生级别的专家题目）等更难的基准正是为此目的而开发。

作者：

链接：https://www.sunqi.org/llm-pince-jizhu-mmlu-humaneval-helm-jiepou.html

文章版权归作者所有，未经允许请勿转载。