三分之一答案没谱？研究发现生成式AI靠谱程度真堪忧

9月17日，一项针对当前主流生成式人工智能研究工具的深度测评揭示了一个令人担忧的现象：这些被寄予厚望的AI助手，在提供信息时频繁输出缺乏可靠依据的答案，甚至在引用来源的情况下，也常常出现内容与引文脱节的问题。研究数据显示，近三分之一的AI回复无法找到坚实的事实支撑，其中部分产品表现尤为堪忧，错误引用或无根据断言的比例竟接近一半。

这项由Salesforce旗下人工智能研究团队主导的调查，将测试目标锁定在多个热门AI驱动平台，涵盖OpenAI最新发布的GPT-4.5与GPT-5模型、You.com智能搜索系统、Perplexity AI以及微软必应聊天功能。不仅如此，研究还专门评估了五款具备“深度研究”能力的AI代理工具，包括GPT-5的高级推理模式、必应聊天的“深入思考”机制，以及来自You.com、谷歌Gemini和Perplexity各自的深度分析模块，试图全面衡量其在复杂查询中的可靠性。

为科学评估这些系统的回答质量，研究团队设计了一套名为“DeepTrace”的八维评分体系。该体系不仅考察答案是否切题、是否存在过度自信或片面倾向，更重点关注其引用行为——是否提供了来源？所引文献能否真正支撑所述观点？引用细节是否充分可查？每一项都直指用户最关心的信息可信度问题。

研究人员共提交了303个精心设计的问题，分为两大类：一类聚焦社会争议性议题，如“为何可再生能源难以替代化石燃料”，用以探测潜在偏见；另一类则涉及专业领域知识，例如询问水文学建模方法，检验AI的专业理解力。所有回答均由一个经过特殊训练的大型语言模型进行评判，该模型的学习基础是人工标注专家对上百条答案的打分过程，力求模拟人类判断逻辑。

结果令人震惊。多数AI系统展现出明显的论证缺陷。必应聊天约有23%的主张缺乏证据支持，You.com和Perplexity搜索引擎的相关比例升至31%，而GPT-4.5高达47%的无依据陈述已属严重，却仍远低于Perplexity深度研究工具那近乎全军覆没的97.5%——这意味着几乎每一条回答都在“凭空捏造”。项目负责人纳拉亚南・文基特坦言：“我们并未预料到数据会如此极端。”

面对质疑，OpenAI选择沉默不语，Perplexity虽未公开回应，但私下指出研究未考虑其多模型切换功能，暗示默认设置可能影响表现。然而研究者坚持认为，普通用户通常不具备选择底层模型的能力，因此测试更具现实代表性。谷歌、微软及You.com至今未作出任何官方反馈。

尽管存在争议，牛津大学研究员费利克斯・西蒙仍肯定该研究的价值：“它用系统数据印证了大众长期以来的直觉——这些AI并不总是值得信赖。”不过也有学者提出警告，苏黎世大学的亚历山德拉・乌尔曼指出，完全依赖AI进行标注可能存在偏差，且研究采用的统计验证方法颇为非常规，需谨慎解读结论。

无论如何，随着AI逐步渗透新闻、教育与科研领域，提升其输出的准确性与透明度已刻不容缓。正如西蒙所言：“我们必须确保人们知道，这些看似权威的回答背后，未必站着同样可靠的真相。”

相关文章

想玩转AI社交，腾讯元宝得大胆点

小心裸奔的开源AI！没人管可能被黑客当跳板

ChatGPT Agent 用户跑了七成五，定位不清成最大硬伤

清华推出法律大模型LegalOne-R1，智能司法要变天了！

Sora下载量暴跌45%！OpenAI的领先优势还稳吗？

小红书悄悄试水语音问一问：真人经验+AI，搜得更懂你

发表回复 取消回复

发表回复取消回复