678CHAT AI资讯 AI界大地震!GPT-5等顶尖模型在博士级推理测试中集体交白卷

AI界大地震!GPT-5等顶尖模型在博士级推理测试中集体交白卷

人工智能领域迎来重磅消息——全新评测基准FormulaOne近日发布测试结果,犹如投下一枚"深水炸弹"。这套由超智能系统研究权威机构AAI开发的评估体系,专门用于检验顶尖AI模型的复杂逻辑推理能力。令人震惊的是,包括GPT-5Grok-4Claude-3 Pro在内的顶级模型,在最难测试环节竟全军覆没。

AI界大地震!GPT-5等顶尖模型在博士级推理测试中集体交白卷插图

这套评测体系包含220道创新性动态规划难题,题目难度呈阶梯式上升:

  • 中等难度:相当于研究生水平
  • 进阶难度:对标博士生课题
  • 科研级难度:触及学术前沿领域

题目涉及拓扑学、几何构造等高等数学领域,表面看似简单,实则暗藏复杂的逻辑链条。这种需要系统性推理能力的问题,通常只有具备博士学历的研究者才能驾驭。

"测试结果证明,当前AI在需要多步骤抽象推理的高阶数学问题上,仍存在根本性缺陷。"

AI界大地震!GPT-5等顶尖模型在博士级推理测试中集体交白卷插图1

评测的理论基础源自Courcelle算法元定理,该定理指出:对于树状结构的图问题,只要能用逻辑语言描述,就能通过动态规划求解。其中关键的"树分解"技术,要求将图的节点划分为重叠子集,并以树形结构组织——这对AI的抽象理解和连贯推理能力提出了双重挑战。

测试数据显示:

  • 基础题正确率:50%-70%
  • 深层难题正确率:不足1%
  • 最高难度正确率:0%

值得注意的是,表现最好的GPT-5 Pro也仅解出4道题。这一结果引发学界深刻反思,有专家建议邀请人类博士生参与对照测试,以更直观展现人机差距。

模型评测地址:https://huggingface.co/spaces/double-ai/FormulaOne-Leaderboard

核心发现:

  • ✅ 主流AI在最高难度测试中集体"交白卷"
  • ✅ 220道博士级难题构成完整能力评估体系
  • ✅ 模型在简单题尚可,但面对复杂推理立即"宕机"
本文来自网络,不代表678CHAT立场,转载请注明出处:https://www.678chat.com/ai/17986.html

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注

返回顶部