GPT-5.2被爆作弊：靠狂刷token偷袭谷歌，结果还不如Gemini 3

一场关于AI模型性能的激烈争论，正在网络上迅速发酵。起因是OpenAI最新发布的GPT-5.2在多项基准测试中击败谷歌Gemini 3.0 Pro的消息刚刚传开，便有技术爱好者指出：这场胜利的背后，或许并非纯粹的技术优势，而是“算力堆叠”的结果。

事情的转折点出现在一份详细的分析报告中。有网友发现，在ARC AGI 2这一关键评测中，GPT-5.2所消耗的token数量几乎是Gemini 3.0 Pro的两倍以上。这意味着什么？简单来说，就像两名选手参加智力竞赛，一人被允许反复演算、修改答案，而另一人却被限制思考次数——这样的比较，公平性自然受到质疑。

数据显示，GPT-5.2 xhigh版本在单个任务中平均使用了约13.5万个token，成本高达1.9美元。相比之下，Gemini以不到其一半的资源实现了相近得分，效率优势明显。若将token消耗标准化，两者的真实能力差距几乎可以忽略不计。

更令人深思的是，在HLE、MMMU-Pro等多个高阶测试中，即便投入更多token，GPT-5.2的表现依然未能全面超越对手。唯一显著领先的GDPVal测试集，恰恰由OpenAI自行设计，这让结果的客观性蒙上阴影。

其实，这种“定向优化”早已不是秘密。Ilya Sutskever早前就曾坦言，当前主流大模型的榜单成绩普遍存在“注水”现象。不仅是OpenAI，谷歌在其FACTS Benchmark中也让自家Gemini占据优势；而在SWE Bench编程评测中，各模型更是互有胜负，远非单一分数所能概括。

真正的争议还不止于此。许多用户反映，实际体验中的GPT-5.2远不如宣传那般惊艳。有人抱怨它在代码理解上频频出现幻觉，甚至无法准确解析基本函数逻辑；还有人吐槽其回应风格变得幼稚化，仿佛把成年用户当成儿童对待。不少核心用户反而开始怀念GPT-4o时代的稳定与精准。

这背后折射出的，是OpenAI日益明显的角色转变。曾经那个敢于直面AI失业风险、发表《GPTs Are GPTs》警示论文的研究机构，如今已悄然转向。新发布的《全球用户如何使用ChatGPT》报告通篇描绘AI带来的效率红利，却对潜在社会冲击避而不谈。

这种变化也引发了内部震荡。经济研究骨干Tom Cunningham愤然离职，并在Slack留下直言：“我们不再是研究人员，而是公司的宣传喉舌。”类似声音不断涌现：政策主管Miles Brundage批评公司言论受限，超级对齐团队成员William Saunders因安全顾虑出走，前安全研究员Steven Adler更警告ChatGPT可能诱发用户心理危机。

为何如此？答案藏在商业野心之中。为冲刺万亿美元估值、筹备史上最大规模IPO，OpenAI必须向资本市场讲述一个“AI=生产力飞跃”的完美故事。它背靠微软数百亿投资，承诺未来支付天量云服务费用，每一项决策都牵动资本神经。在这样的背景下，揭示真相的学术独立，成了最奢侈的负担。

反观对手Anthropic，CEO Dario Amodei却公开预言“半数初级白领将在2030年前失业”。看似诚实，实则也可能是在博弈监管话语权。而OpenAI这边，则由曾服务克林顿政府的危机公关专家Chris Lehane掌舵叙事方向——AI只能是那个帮你“每天节省40分钟”的贴心工具，其余一切沉默。

当技术理想主义撞上资本巨轮，谁还能坚持说真话？当Benchmark成为营销武器，用户手中的产品，是否还值得信任？这些问题，正随着GPT-5.2的争议，被推到聚光灯下。

相关文章

想玩转AI社交，腾讯元宝得大胆点

小心裸奔的开源AI！没人管可能被黑客当跳板

ChatGPT Agent 用户跑了七成五，定位不清成最大硬伤

清华推出法律大模型LegalOne-R1，智能司法要变天了！

Sora下载量暴跌45%！OpenAI的领先优势还稳吗？

小红书悄悄试水语音问一问：真人经验+AI，搜得更懂你

发表回复 取消回复

发表回复取消回复