设为首页加入收藏
  • 首页
  • {$vo.typename}
  • {$vo.typename}
  • {$vo.typename}
  • {$vo.typename}
  • {$vo.typename}
  • {$vo.typename}
    • 当前位置:首页>连云港>MMLU已死?「人类最后考试」登Nature:全球AI模型集体不及格!

      MMLU已死?「人类最后考试」登Nature:全球AI模型集体不及格!

      发布时间:2026-04-20 来源:奉为楷模网作者:勇士是湖人弟弟

      新智元报道

      编辑:KingHZ

      【新智元导读】从高德纳震惊Claude解难题,到陶哲轩称GPT-5.2pro够发Nature数学博士……AI狂飙突进,却在 「人类最后的考试」上集体哑火:最高分不过50%,人类专家还有多大安全区?

      AI新闻圈,两天一地震,三天一颠覆,让你目不暇接、眼花缭乱!

      或有夸大的地方,但AI日新月异、有目共睹!

      「算法分析祖师爷」高德纳见证了Claude解决了一道高难度算法题,发文连用两个「震惊」(shock)。

      数学家陶哲轩宣布GPT 5.2 Pro解决了一个数学Erdos难题且完全与之前人类的解法不同,足以拿下数学博士学位了!

      此前,更有Claude Code引发的Vibe Coding热潮。

      至于各种长期存在的基准测试,AI取得优异成绩已不足为怪!

      AI研究人员早已意识到问题:这些测试太简单了。

      像大规模多任务语言理解(MMLU)这类曾被视为难度颇高的热门评测,如今已无法有效检验先进AI系统的真实水平

      问题在于:AI模型发展得如此之快,基准测试正难以跟上其步伐,难以确保AI安全有效。

      在MMLU等热门基准测试中,大语言模型的准确率现已超过90%,早已「饱和」。

      「人类最后的考试」的新AI测试基准,或许能提供解决方案。

      各大LLM在不同基准上准确率的对比

      最近,这篇合作名单巨长的论文,正式登上顶刊Nature!

      链接:https://www.nature.com/articles/s41586-025-09962-4

      顺便提一句,Alexandr Wang还在Scale AI时,相关工作已发表在预印本平台Arxiv。

      AI基准:测试,再测试

      从性能和安全等角度来看,测试大语言模型有多种不同的方法。

      例如,在发布前,AI开发人员会评估大语言模型被用于恶意目的的抵抗能力。

      此外,还有一些独立组织对大语言模型进行评估,比如评估大语言模型被用于自主利用软件漏洞的风险。

      然而,这些测试通常只涵盖狭窄的学科领域,或者只包含少量任务。

      为了比较模型而创建更广泛、标准化基准的尝试包括MMLU,它使用大约16000道多项选择题来测试模型的通用知识和解决问题的能力。

      但很快,过去那些曾经很难的考试,现在对AI来说已经变成了「送分题」。

      为了弥补这一差距,近1000名研究人员组成的全球联盟创建了「人类最后的考试」(Humanity’s Last Exam,HLE。

      该测试由AI安全中心CAIS和Scale AI的一个团队开发,包含由全球研究人员提交的3000个具有挑战性的问题,旨在成为衡量大语言模型能力的终极基准

      这项基准测试覆盖面极广、挑战性极高、深深植根于人类专家知识,以至于当前最强的AI准确率也不足50%。

      「人类最后的考试」共包含2500道问题,涵盖数学、人文学科、自然科学、古代语言以及高度专业化的子领域。

      问题学科分布

      这些题目非常专业:从翻译古代巴尔米拉铭文,到识别鸟类的显微解剖结构,再到分析圣经希伯来语发音的复杂特征。

      每道题都经过了领先AI模型的测试。如果有任何系统能答对,该题就会被剔除。最终形成的是一项经过精心设计、恰好处于当前AI能力边界之外的考试。

      从7万到提交的难题中,精挑细选出了其中的2500道题目

      结果也证实了这一点。

      早期结果显示,即使是最先进的模型也举步维艰:

      GPT-4o得分2.7%;

      Claude 3.5 Sonnet达到4.1%;

      OpenAI的旗舰模型o1仅取得8%的成绩。

      新基准为何重要

      德州农工大学计算机科学与工程系的教学副教授Tung Nguyen,他参与了问题的撰写和完善工作。

      他贡献了2500道公开考题中的73道(贡献量位居第二),并且在数学和计算机科学领域撰写的题目数量最多。

      最近,他分享了对「人类最后的考试」的思考。

      「当AI系统开始在人类设定的基准测试中表现得极为出色时,人们很容易认为它们正在接近人类水平的理解力,」Tung Nguyen说道。

      但HLE提醒我们,智能不仅仅是模式识别——它关乎深度、背景和专业化的知识。

      这个考试的目的并非难倒人类。而是要精确、系统地揭示出AI目前——至少是现阶段——还无法做到的事情。

      链接:lastexam.ai

      Tung Nguyen表示,AI超越传统基准的问题远超学术层面。

      「如果没有准确的评估工具,政策制定者、开发者和用户就可能误解AI系统的实际能力,」他说。「基准测试为衡量进展和识别风险提供了基础。」

      正如团队论文所指出的,虽然AI可能在为人类设计的考试中表现出色,但这些测试不一定在衡量「智能」。

      尽管名字听起来有点「末日」感,但「人类最后的考试」并非意在暗示人类重要性的终结。

      相反,它突显了仍有大量知识是独一无二地属于人类的,以及AI还需要走多远。

      Tung Nguyen坦言:「这个名字有点半开玩笑的意味」。

      重要的是背后的理念:

      这是人类对AI的设置的最后一道难关。如果AI能通过这项考试,就意味着它达到了某种专业化的人类专家水平,而这在以前被认为是机器不可能做到的。

      因为HLE涵盖了从核物理到古代史的所有领域,所以没人能通过单打独斗的通过整个考试。

      然而,特定领域的人类专家可以轻松回答其专业领域内的问题,而AI在几乎所有类别上都失败了。

      为什么AI还会失败?

      原因在于AI擅长模式识别和总结已知数据,但它难以处理深度、专业化的背景知识。

      HLE提出的问题需要多年的专门研究。在这些问题上,基于常见互联网数据的「猜测」行不通。

      参考资料:

      https://www.nature.com/articles/s41586-025-09962-4

      https://stories.tamu.edu/news/2026/02/25/dont-panic-humanitys-last-exam-has-begun/

      • 上一篇:{loop type="arclist" row=1 }{$vo.title}