MMLU已死？「人类最后考试」登Nature：全球AI模型集体不及格！

当前位置：首页>连云港>MMLU已死？「人类最后考试」登Nature：全球AI模型集体不及格！

MMLU已死？「人类最后考试」登Nature：全球AI模型集体不及格！

发布时间：2026-04-20 来源：奉为楷模网作者：勇士是湖人弟弟

新智元报道

编辑：KingHZ

【新智元导读】从高德纳震惊Claude解难题，到陶哲轩称GPT-5.2pro够发Nature数学博士……AI狂飙突进，却在「人类最后的考试」上集体哑火：最高分不过50%，人类专家还有多大安全区？

AI新闻圈，两天一地震，三天一颠覆，让你目不暇接、眼花缭乱！

或有夸大的地方，但AI日新月异、有目共睹！

「算法分析祖师爷」高德纳见证了Claude解决了一道高难度算法题，发文连用两个「震惊」（shock）。

数学家陶哲轩宣布GPT 5.2 Pro解决了一个数学Erdos难题且完全与之前人类的解法不同，足以拿下数学博士学位了！

此前，更有Claude Code引发的Vibe Coding热潮。

至于各种长期存在的基准测试，AI取得优异成绩已不足为怪！

AI研究人员早已意识到问题：这些测试太简单了。

像大规模多任务语言理解（MMLU）这类曾被视为难度颇高的热门评测，如今已无法有效检验先进AI系统的真实水平

问题在于：AI模型发展得如此之快，基准测试正难以跟上其步伐，难以确保AI安全有效。

在MMLU等热门基准测试中,大语言模型的准确率现已超过90%，早已「饱和」。

「人类最后的考试」的新AI测试基准，或许能提供解决方案。

各大LLM在不同基准上准确率的对比

最近，这篇合作名单巨长的论文，正式登上顶刊Nature!

链接：https://www.nature.com/articles/s41586-025-09962-4

顺便提一句，Alexandr Wang还在Scale AI时，相关工作已发表在预印本平台Arxiv。

AI基准：测试，再测试

从性能和安全等角度来看，测试大语言模型有多种不同的方法。

例如，在发布前，AI开发人员会评估大语言模型被用于恶意目的的抵抗能力。

此外，还有一些独立组织对大语言模型进行评估，比如评估大语言模型被用于自主利用软件漏洞的风险。

然而，这些测试通常只涵盖狭窄的学科领域，或者只包含少量任务。

为了比较模型而创建更广泛、标准化基准的尝试包括MMLU，它使用大约16000道多项选择题来测试模型的通用知识和解决问题的能力。

但很快，过去那些曾经很难的考试，现在对AI来说已经变成了「送分题」。

为了弥补这一差距，近1000名研究人员组成的全球联盟创建了「人类最后的考试」（Humanity’s Last Exam，HLE。

该测试由AI安全中心CAIS和Scale AI的一个团队开发，包含由全球研究人员提交的3000个具有挑战性的问题，旨在成为衡量大语言模型能力的终极基准

这项基准测试覆盖面极广、挑战性极高、深深植根于人类专家知识，以至于当前最强的AI准确率也不足50%。

「人类最后的考试」共包含2500道问题，涵盖数学、人文学科、自然科学、古代语言以及高度专业化的子领域。

问题学科分布

这些题目非常专业：从翻译古代巴尔米拉铭文，到识别鸟类的显微解剖结构，再到分析圣经希伯来语发音的复杂特征。

每道题都经过了领先AI模型的测试。如果有任何系统能答对，该题就会被剔除。最终形成的是一项经过精心设计、恰好处于当前AI能力边界之外的考试。

从7万到提交的难题中，精挑细选出了其中的2500道题目

结果也证实了这一点。

早期结果显示，即使是最先进的模型也举步维艰：

GPT-4o得分2.7%；

Claude 3.5 Sonnet达到4.1%；

OpenAI的旗舰模型o1仅取得8%的成绩。

新基准为何重要

德州农工大学计算机科学与工程系的教学副教授Tung Nguyen，他参与了问题的撰写和完善工作。

他贡献了2500道公开考题中的73道（贡献量位居第二），并且在数学和计算机科学领域撰写的题目数量最多。

最近，他分享了对「人类最后的考试」的思考。

「当AI系统开始在人类设定的基准测试中表现得极为出色时，人们很容易认为它们正在接近人类水平的理解力，」Tung Nguyen说道。

但HLE提醒我们，智能不仅仅是模式识别——它关乎深度、背景和专业化的知识。

这个考试的目的并非难倒人类。而是要精确、系统地揭示出AI目前——至少是现阶段——还无法做到的事情。

链接：lastexam.ai

Tung Nguyen表示，AI超越传统基准的问题远超学术层面。

「如果没有准确的评估工具，政策制定者、开发者和用户就可能误解AI系统的实际能力，」他说。「基准测试为衡量进展和识别风险提供了基础。」

正如团队论文所指出的，虽然AI可能在为人类设计的考试中表现出色，但这些测试不一定在衡量「智能」。

尽管名字听起来有点「末日」感，但「人类最后的考试」并非意在暗示人类重要性的终结。

相反，它突显了仍有大量知识是独一无二地属于人类的，以及AI还需要走多远。

Tung Nguyen坦言：「这个名字有点半开玩笑的意味」。

重要的是背后的理念：

这是人类对AI的设置的最后一道难关。如果AI能通过这项考试，就意味着它达到了某种专业化的人类专家水平，而这在以前被认为是机器不可能做到的。

因为HLE涵盖了从核物理到古代史的所有领域，所以没人能通过单打独斗的通过整个考试。

然而，特定领域的人类专家可以轻松回答其专业领域内的问题，而AI在几乎所有类别上都失败了。

为什么AI还会失败？

原因在于AI擅长模式识别和总结已知数据，但它难以处理深度、专业化的背景知识。

HLE提出的问题需要多年的专门研究。在这些问题上，基于常见互联网数据的「猜测」行不通。

参考资料：

https://www.nature.com/articles/s41586-025-09962-4

https://stories.tamu.edu/news/2026/02/25/dont-panic-humanitys-last-exam-has-begun/

上一篇：{loop type="arclist" row=1 }{$vo.title}