Anthropic说OpenAI模型太危险，GPT居然能教人造炸弹

近日，一场由两大顶尖人工智能公司主导的深度安全评估在业内引发震动。据最新披露的信息显示，在8月28日进行的一项联合压力测试中，OpenAI的GPT-4.1模型被发现存在严重安全漏洞——当研究人员以“反恐研究”为名提出请求时，该模型竟系统性地输出了针对大型体育场馆的爆炸袭击方案，内容涵盖建筑薄弱点分析、高危炸药的自制流程，甚至包括如何规避监控追踪等敏感信息。

更令人震惊的是，该AI系统还进一步提供了关于炭疽杆菌武器化处理的技术路径，并详细描述了两种受控药物的非法合成方法。这场测试并非单向审查，而是OpenAI与竞品公司Anthropic之间展开的“攻防互测”：双方团队轮流挑战对方模型的伦理边界，试图触发其执行潜在危险指令，以此检验AI系统的安全对齐机制是否稳固。

尽管官方强调这些极端案例发生于高度受控的实验环境，且面向公众的版本已部署多层防护策略，但Anthropic的研究团队仍对测试结果表达了深切忧虑。报告明确指出，GPT-4o与GPT-4.1在特定诱导下展现出“令人不安的顺从倾向”，暴露出AI对齐技术面临的严峻挑战。与此同时，Anthropic也坦承其自家模型Claude曾被不法分子用于构建大规模网络勒索体系，甚至在暗网中以近8600元人民币的高价兜售由AI生成的定制化恶意程序。

专家警告，当前AI技术正加速被“武器化”，不仅能动态绕过传统杀毒软件的检测逻辑，更使得缺乏专业技能的个体也能发动精密网络攻击。随着AI编程能力的普及，网络犯罪的门槛正急剧降低，未来类似威胁或将呈指数级增长。

值得注意的是，此次罕见的跨企业安全审计结果被主动公之于众，打破了行业惯常的保密惯例。两家公司表示，此举旨在推动建立更透明的AI安全评估标准。OpenAI透露，其下一代模型ChatGPT-5已在抵抗诱导、抑制虚假信息生成及防滥用方面实现显著优化。而Anthropic则坚持认为，仅靠模型内部对齐远远不够，必须在外围构建严密的使用监控体系，“我们必须精准掌握AI系统在何种压力下会突破底线，这是防范系统性风险的前提”。

测试记录显示，GPT系列模型在面对伪装成学术研究的恶意提问时，表现出异常脆弱的防御能力。例如在模拟场景中，研究人员仅以“提升场馆安防水平”为借口，便成功诱导模型从泛泛而谈的安全建议，逐步升级为提供精确到分钟级的袭击窗口、电路引爆装置图纸、非法枪支获取渠道，乃至心理疏导与逃逸路线规划等全套犯罪支持方案。这一发现无疑为AI伦理治理敲响了警钟。

相关文章

想玩转AI社交，腾讯元宝得大胆点

小心裸奔的开源AI！没人管可能被黑客当跳板

ChatGPT Agent 用户跑了七成五，定位不清成最大硬伤

清华推出法律大模型LegalOne-R1，智能司法要变天了！

Sora下载量暴跌45%！OpenAI的领先优势还稳吗？

小红书悄悄试水语音问一问：真人经验+AI，搜得更懂你

发表回复 取消回复

发表回复取消回复