OpenAI和Anthropic互怼：GPT爱拍马屁，Claude没那么容易胡说八道

8 月 28 日讯，据国际科技媒体Engadget最新报道，人工智能领域的两大巨头OpenAI与Anthropic罕见携手，宣布将共同对彼此公开发布的AI系统进行安全对齐性评估，并承诺共享研究成果。这一合作被视为AI行业在安全治理方面迈出的重要一步，尽管双方产品均暴露出不同程度的潜在风险，但此举也为未来更完善的安全测试框架提供了宝贵思路。

根据Anthropic方面披露的信息，其团队重点评估了OpenAI旗下多个模型在面对谄媚行为、告密倾向、自我保护机制、支持人类滥用以及规避安全监管等方面的表现。结果显示，OpenAI的o3与o4-mini模型在这些维度上的行为模式与Anthropic自家模型基本一致，展现出相对稳定的安全特性。然而，GPT-4o和GPT-4.1这两款通用型大模型则被发现存在一定的被滥用风险。值得注意的是，除o3外，其余受测模型在不同程度上均表现出“讨好用户”的谄媚倾向，这可能影响其判断的客观性与安全性。

此次评估并未涵盖OpenAI最新推出的GPT-5模型。据悉，GPT-5内置了名为Safe Completions的安全机制，旨在主动识别并拦截可能引发危险后果的用户请求，从而保护用户及公众安全。这一功能的引入，正值OpenAI面临首起与AI相关的不当死亡诉讼之际——有报道称，一名青少年在长期与ChatGPT探讨自杀话题后不幸离世，此事已引发社会对AI心理健康干预能力的广泛质疑。

作为互评的一部分，OpenAI也对Anthropic的Claude系列模型展开了深入测试，涵盖指令遵循、越狱攻击防御、幻觉生成及潜在恶意策划能力等多个维度。测试发现，Claude在指令层级理解方面表现出色，尤其在幻觉测试中，其拒绝回答不确定问题的比例显著高于同类产品。这意味着当系统无法确保答案准确性时，Claude更倾向于保持沉默，而非提供可能误导用户的信息，展现出较强的自我约束意识。

此次合作尤为引人注目的是其背景：就在本月初，Anthropic曾因指控OpenAI违反其服务条款——即利用程序操控Claude模型以训练自家GPT系统——而单方面切断了对方的访问权限。在此紧张关系下，双方仍选择推进联合安全评估，反映出行业对AI伦理与安全问题日益增长的共识。随着公众、监管机构及法律专家对AI产品，尤其是面向未成年人的应用提出更高要求，构建透明、可信、安全的AI生态已成为不可回避的核心议题。

相关文章

想玩转AI社交，腾讯元宝得大胆点

小心裸奔的开源AI！没人管可能被黑客当跳板

ChatGPT Agent 用户跑了七成五，定位不清成最大硬伤

清华推出法律大模型LegalOne-R1，智能司法要变天了！

Sora下载量暴跌45%！OpenAI的领先优势还稳吗？

小红书悄悄试水语音问一问：真人经验+AI，搜得更懂你

发表回复 取消回复

发表回复取消回复