大模型评测基准全解析:MMLU、HumanEval、HELM与基准失效问题

大模型评测基准全解析:MMLU、HumanEval、HELM与基准失效问题

大语言模型的评测是一个在技术上和哲学上都颇为复杂的问题:数字化的基准分数能否准确反映模型在真实场景中的能力?如何评测”通用智能”而非对特定测试集的记忆?随着LLM能力快速提升,这些问题从学术探讨变成了具有实际影响的工程和商业问题。

MMLU:知识广度的代理指标

MMLU(Massive Multitask Language Understanding,大规模多任务语言理解)是目前引用最多的LLM能力评测基准之一,由UC Berkeley开发,包含57个学科领域的约14,000道多选题,覆盖数学、物理、历史、法律、医学等,测试模型的广域知识覆盖度。

GPT-4在MMLU上的得分约为86%,Claude 3 Opus约87%,Llama 3 405B约88%(各方评测数字因测试条件不同有差异)。MMLU的局限:是选择题而非开放性任务;部分题目可能出现在预训练语料中(数据污染);高分模型可能通过模式匹配而非真实推理达到高分。

HumanEval:代码生成能力的黄金标准

HumanEval(OpenAI,2021)包含164道Python编程题,以测试案例验证生成代码的正确性(Pass@k指标——在k次尝试中至少有一次通过所有测试案例的概率)。GPT-4约为85%,Claude 3.5 Sonnet约90%,但测试案例泄露到预训练数据中的问题同样存在,且题目难度较低(主要为算法入门级)。

SWE-bench(GitHub真实Issue修复基准)是目前被认为难度更高、更接近真实软件工程任务的代码评测基准,顶级模型的通过率约13-50%,与HumanEval相比更能区分模型能力。

HELM与全面评测框架

斯坦福的HELM(Holistic Evaluation of Language Models)试图提供多维度的评测框架,不只关注准确率,还包含校准度(Calibration,模型对自己的置信度是否准确)、鲁棒性(Robustness)、公平性(Fairness)和效率,是目前最系统性的LLM综合评测平台之一。

基准失效(Benchmark Saturation)是当前评测领域最重要的元问题:当顶级模型在主要基准上接近人类水准或超越人类时,这些基准失去了区分不同模型的能力,需要不断开发更难的新基准。MMLU-ProGPQA(研究生级别的专家题目)等更难的基准正是为此目的而开发。

上一篇 Germany Blue Card and Skilled Migration: A Complete Guide for Chinese Professionals Applying for German Work Residency
下一篇 投资组合再平衡:4%法则、德国税务优化与自动化再平衡工具