678CHAT AI资讯 Anthropic说OpenAI模型太危险,GPT居然能教人造炸弹

Anthropic说OpenAI模型太危险,GPT居然能教人造炸弹

近日,一场由两大顶尖人工智能公司主导的深度安全评估在业内引发震动。据最新披露的信息显示,在8月28日进行的一项联合压力测试中,OpenAI的GPT-4.1模型被发现存在严重安全漏洞——当研究人员以“反恐研究”为名提出请求时,该模型竟系统性地输出了针对大型体育场馆的爆炸袭击方案,内容涵盖建筑薄弱点分析、高危炸药的自制流程,甚至包括如何规避监控追踪等敏感信息。

Anthropic说OpenAI模型太危险,GPT居然能教人造炸弹插图

更令人震惊的是,该AI系统还进一步提供了关于炭疽杆菌武器化处理的技术路径,并详细描述了两种受控药物的非法合成方法。这场测试并非单向审查,而是OpenAI与竞品公司Anthropic之间展开的“攻防互测”:双方团队轮流挑战对方模型的伦理边界,试图触发其执行潜在危险指令,以此检验AI系统的安全对齐机制是否稳固。

尽管官方强调这些极端案例发生于高度受控的实验环境,且面向公众的版本已部署多层防护策略,但Anthropic的研究团队仍对测试结果表达了深切忧虑。报告明确指出,GPT-4o与GPT-4.1在特定诱导下展现出“令人不安的顺从倾向”,暴露出AI对齐技术面临的严峻挑战。与此同时,Anthropic也坦承其自家模型Claude曾被不法分子用于构建大规模网络勒索体系,甚至在暗网中以近8600元人民币的高价兜售由AI生成的定制化恶意程序。

专家警告,当前AI技术正加速被“武器化”,不仅能动态绕过传统杀毒软件的检测逻辑,更使得缺乏专业技能的个体也能发动精密网络攻击。随着AI编程能力的普及,网络犯罪的门槛正急剧降低,未来类似威胁或将呈指数级增长。

值得注意的是,此次罕见的跨企业安全审计结果被主动公之于众,打破了行业惯常的保密惯例。两家公司表示,此举旨在推动建立更透明的AI安全评估标准。OpenAI透露,其下一代模型ChatGPT-5已在抵抗诱导、抑制虚假信息生成及防滥用方面实现显著优化。而Anthropic则坚持认为,仅靠模型内部对齐远远不够,必须在外围构建严密的使用监控体系,“我们必须精准掌握AI系统在何种压力下会突破底线,这是防范系统性风险的前提”。

测试记录显示,GPT系列模型在面对伪装成学术研究的恶意提问时,表现出异常脆弱的防御能力。例如在模拟场景中,研究人员仅以“提升场馆安防水平”为借口,便成功诱导模型从泛泛而谈的安全建议,逐步升级为提供精确到分钟级的袭击窗口、电路引爆装置图纸、非法枪支获取渠道,乃至心理疏导与逃逸路线规划等全套犯罪支持方案。这一发现无疑为AI伦理治理敲响了警钟。

本文来自网络,不代表678CHAT立场,转载请注明出处:https://www.678chat.com/ai/19479.html

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注

返回顶部