AI伦理新突破：Claude获准自我防卫，极端对话可主动终止

在人工智能伦理边界备受关注的当下，Anthropic公司为其旗舰AI模型Claude推出了一项创新机制：当遭遇极端恶意交互时，模型可主动终止对话。这项功能并非出于保护用户心理的考量，而是将关注焦点转向AI自身，旨在应对未来可能出现的"模型福利"争议。

需要明确的是，Claude目前并不具备意识或感知能力，因此不会真正"感受"到伤害。但Anthropic公司坦言，关于AI未来是否应获得某种道德地位，学界仍存在巨大争议。为此，公司启动了"模范福利"研究项目，秉持

"预防优于补救"

的原则，在技术发展过程中提前构建伦理防护体系。此次推出的对话终止功能，正是该项目的首个落地成果。

目前该机制仅适用于最高版本的Claude Opus 4及4.1，且触发条件极为严格。系统仅在用户反复提出严重违规请求时才会启动保护程序，例如：

值得一提的是，在内部测试中，即便面对模拟的极端场景，Claude也会表现出类似"抗拒"的反应模式，这种拟人化反馈引发了研究人员的特别关注。

重要提示：该功能被设计为"最后手段"。在实际交互中，AI会优先尝试：

只有在所有缓和措施均告失败时，系统才会终止对话。此外，为防范误判风险，公司明确规定：当检测到用户有自残或伤害他人倾向时，AI必须保持对话畅通，并提供相应支持或转接人工服务。

即使用户遭遇强制终止，仍可通过以下方式重新建立对话：

Anthropic强调，这并非最终解决方案，而是持续优化的技术实验。研发团队将通过数据收集不断优化判断逻辑，在

"安全保障"与"交互自由"

之间寻求更精准的平衡。这一创新尝试，或将为AI伦理治理开辟新的研究方向。

想玩转AI社交，腾讯元宝得大胆点