678CHAT AI资讯 GPT-5.2被爆作弊:靠狂刷token偷袭谷歌,结果还不如Gemini 3

GPT-5.2被爆作弊:靠狂刷token偷袭谷歌,结果还不如Gemini 3

一场关于AI模型性能的激烈争论,正在网络上迅速发酵。起因是OpenAI最新发布的GPT-5.2在多项基准测试中击败谷歌Gemini 3.0 Pro的消息刚刚传开,便有技术爱好者指出:这场胜利的背后,或许并非纯粹的技术优势,而是“算力堆叠”的结果。

GPT-5.2被爆作弊:靠狂刷token偷袭谷歌,结果还不如Gemini 3插图

事情的转折点出现在一份详细的分析报告中。有网友发现,在ARC AGI 2这一关键评测中,GPT-5.2所消耗的token数量几乎是Gemini 3.0 Pro的两倍以上。这意味着什么?简单来说,就像两名选手参加智力竞赛,一人被允许反复演算、修改答案,而另一人却被限制思考次数——这样的比较,公平性自然受到质疑。

数据显示,GPT-5.2 xhigh版本在单个任务中平均使用了约13.5万个token,成本高达1.9美元。相比之下,Gemini以不到其一半的资源实现了相近得分,效率优势明显。若将token消耗标准化,两者的真实能力差距几乎可以忽略不计。

更令人深思的是,在HLE、MMMU-Pro等多个高阶测试中,即便投入更多token,GPT-5.2的表现依然未能全面超越对手。唯一显著领先的GDPVal测试集,恰恰由OpenAI自行设计,这让结果的客观性蒙上阴影。

其实,这种“定向优化”早已不是秘密。Ilya Sutskever早前就曾坦言,当前主流大模型的榜单成绩普遍存在“注水”现象。不仅是OpenAI,谷歌在其FACTS Benchmark中也让自家Gemini占据优势;而在SWE Bench编程评测中,各模型更是互有胜负,远非单一分数所能概括。

GPT-5.2被爆作弊:靠狂刷token偷袭谷歌,结果还不如Gemini 3插图1

真正的争议还不止于此。许多用户反映,实际体验中的GPT-5.2远不如宣传那般惊艳。有人抱怨它在代码理解上频频出现幻觉,甚至无法准确解析基本函数逻辑;还有人吐槽其回应风格变得幼稚化,仿佛把成年用户当成儿童对待。不少核心用户反而开始怀念GPT-4o时代的稳定与精准。

这背后折射出的,是OpenAI日益明显的角色转变。曾经那个敢于直面AI失业风险、发表《GPTs Are GPTs》警示论文的研究机构,如今已悄然转向。新发布的《全球用户如何使用ChatGPT》报告通篇描绘AI带来的效率红利,却对潜在社会冲击避而不谈。

这种变化也引发了内部震荡。经济研究骨干Tom Cunningham愤然离职,并在Slack留下直言:“我们不再是研究人员,而是公司的宣传喉舌。”类似声音不断涌现:政策主管Miles Brundage批评公司言论受限,超级对齐团队成员William Saunders因安全顾虑出走,前安全研究员Steven Adler更警告ChatGPT可能诱发用户心理危机。

为何如此?答案藏在商业野心之中。为冲刺万亿美元估值、筹备史上最大规模IPO,OpenAI必须向资本市场讲述一个“AI=生产力飞跃”的完美故事。它背靠微软数百亿投资,承诺未来支付天量云服务费用,每一项决策都牵动资本神经。在这样的背景下,揭示真相的学术独立,成了最奢侈的负担。

反观对手Anthropic,CEO Dario Amodei却公开预言“半数初级白领将在2030年前失业”。看似诚实,实则也可能是在博弈监管话语权。而OpenAI这边,则由曾服务克林顿政府的危机公关专家Chris Lehane掌舵叙事方向——AI只能是那个帮你“每天节省40分钟”的贴心工具,其余一切沉默。

GPT-5.2被爆作弊:靠狂刷token偷袭谷歌,结果还不如Gemini 3插图2

当技术理想主义撞上资本巨轮,谁还能坚持说真话?当Benchmark成为营销武器,用户手中的产品,是否还值得信任?这些问题,正随着GPT-5.2的争议,被推到聚光灯下。

本文来自网络,不代表678CHAT立场,转载请注明出处:https://www.678chat.com/ai/22132.html

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注

返回顶部