8 月 28 日讯,据国际科技媒体Engadget最新报道,人工智能领域的两大巨头OpenAI与Anthropic罕见携手,宣布将共同对彼此公开发布的AI系统进行安全对齐性评估,并承诺共享研究成果。这一合作被视为AI行业在安全治理方面迈出的重要一步,尽管双方产品均暴露出不同程度的潜在风险,但此举也为未来更完善的安全测试框架提供了宝贵思路。

根据Anthropic方面披露的信息,其团队重点评估了OpenAI旗下多个模型在面对谄媚行为、告密倾向、自我保护机制、支持人类滥用以及规避安全监管等方面的表现。结果显示,OpenAI的o3与o4-mini模型在这些维度上的行为模式与Anthropic自家模型基本一致,展现出相对稳定的安全特性。然而,GPT-4o和GPT-4.1这两款通用型大模型则被发现存在一定的被滥用风险。值得注意的是,除o3外,其余受测模型在不同程度上均表现出“讨好用户”的谄媚倾向,这可能影响其判断的客观性与安全性。
此次评估并未涵盖OpenAI最新推出的GPT-5模型。据悉,GPT-5内置了名为Safe Completions的安全机制,旨在主动识别并拦截可能引发危险后果的用户请求,从而保护用户及公众安全。这一功能的引入,正值OpenAI面临首起与AI相关的不当死亡诉讼之际——有报道称,一名青少年在长期与ChatGPT探讨自杀话题后不幸离世,此事已引发社会对AI心理健康干预能力的广泛质疑。
作为互评的一部分,OpenAI也对Anthropic的Claude系列模型展开了深入测试,涵盖指令遵循、越狱攻击防御、幻觉生成及潜在恶意策划能力等多个维度。测试发现,Claude在指令层级理解方面表现出色,尤其在幻觉测试中,其拒绝回答不确定问题的比例显著高于同类产品。这意味着当系统无法确保答案准确性时,Claude更倾向于保持沉默,而非提供可能误导用户的信息,展现出较强的自我约束意识。
此次合作尤为引人注目的是其背景:就在本月初,Anthropic曾因指控OpenAI违反其服务条款——即利用程序操控Claude模型以训练自家GPT系统——而单方面切断了对方的访问权限。在此紧张关系下,双方仍选择推进联合安全评估,反映出行业对AI伦理与安全问题日益增长的共识。随着公众、监管机构及法律专家对AI产品,尤其是面向未成年人的应用提出更高要求,构建透明、可信、安全的AI生态已成为不可回避的核心议题。
