AI安全新突破：Claude Opus 4.1上线主动终止对话功能，极端场景可自主切断有害交流

人工智能企业Anthropic近日公布，其最新一代模型Claude Opus 4/4.1已悄然上线一项突破性功能：在极端情况下，AI系统可主动终止对话。这一创新标志着AI安全策略从被动防御转向主动干预。

该功能主要针对持续性恶意行为，例如反复索取可能引发暴恐活动的敏感信息。

Anthropic特别强调，该机制的核心目标并非保护人类用户，而是维护AI自身的安全边界，确保其行为符合预设伦理准则。

虽然Anthropic明确表示Claude不具备意识或感知能力，但研究团队基于技术前瞻性考量，已着手开发低成本防护机制。目前学术界对大语言模型的"道德地位"尚无定论，但提前部署防护措施势在必行。

在深度测试中，研究人员发现Claude展现出稳定的"避害"行为模式：

这种主动性已超越预设指令范畴。

该机制触发条件严格：

但紧急情况例外：当用户出现自残或伤害他人倾向时，系统绝不会启动该功能。

目前仅两种极端场景会触发终止：

公司表示这种情况极为罕见，正常讨论争议话题通常不受影响。

对话终止后，用户虽不能继续原会话，但可以：

确保信息不会丢失。

该功能目前处于实验阶段，Anthropic将持续收集用户反馈进行优化。用户若对AI的"自主决策"有疑问，可通过：

参与AI安全边界的设计。

想玩转AI社交，腾讯元宝得大胆点