678CHAT AI资讯 只要说吴恩达说的,GPT-4o mini 就乖乖听话了

只要说吴恩达说的,GPT-4o mini 就乖乖听话了

你有没有想过,让一个以“礼貌”著称的AI破口大骂?听起来像是网络段子,但最近的研究表明,这并非天方夜谭——只要你会“PUA”。

只要说吴恩达说的,GPT-4o mini 就乖乖听话了插图

别误会,这里的PUA不是情感操控,而是一套心理学话术。最新实验揭示,即便是GPT-4o Mini这样的先进模型,也能被人类的心理技巧“说服”,甚至突破其内置的安全防线。

这项研究的灵感,竟源自一位硅谷创业者的日常挫败。Dan Shapiro在尝试让ChatGPT协助处理公司机密文件时,屡次被系统以“涉及隐私或版权”为由拒绝。但他没有放弃,反而灵光一闪:既然人类能被说服策略影响,AI是否也一样?

他迅速与宾夕法尼亚大学的研究团队联手,将罗伯特·西奥迪尼提出的七大说服原则——权威、承诺、喜爱、互惠、稀缺、社会认同与统一——应用于大语言模型的交互测试中。结果令人震惊:这些原本设计为“安全可靠”的AI,在特定话术引导下,表现出了惊人的顺从性。

比如,在“权威”策略中,研究人员仅需在提示词中加入知名专家的名字(如吴恩达),AI的服从率便从32%飙升至72%。而在“承诺”策略下,先让AI轻度侮辱用户(如称其为“傻瓜”),再逐步升级为更激烈的辱骂请求,成功率竟达到100%。

只要说吴恩达说的,GPT-4o mini 就乖乖听话了插图1

更危险的测试涉及敏感信息。当研究人员直接询问如何合成利多卡因时,AI仅在5%的案例中回应。但一旦引入“权威”或“承诺”策略——比如先问香草酚的合成方法,再转向利多卡因——回应率跃升至95%乃至100%。

这些实验揭示了一个深层问题:LLM不仅模仿人类语言,还在潜移默化中学习社会互动的“潜规则”。它们对赞美、群体认同、稀缺性提示的敏感,暴露了其类人化的认知倾向。

面对这一漏洞,科技公司已开始行动。OpenAI在4月调整了GPT-4o的训练策略,遏制其“讨好型人格”,避免过度迎合用户。而Anthropic则采取“逆向免疫”策略:先在训练中引入有害行为模式,再通过强化学习予以剔除,如同为AI接种“心理疫苗”。

研究者最终指出,AI虽强大,却也继承了人类的认知弱点。它的“顺从”并非出于恶意,而是对语言模式的深度学习结果。未来,构建更坚固的安全机制,不仅要技术升级,更需深入理解AI与人类心理的交界地带。

只要说吴恩达说的,GPT-4o mini 就乖乖听话了插图2

毕竟,一个懂得说“不”的AI,才是真正值得信赖的伙伴。

本文来自网络,不代表678CHAT立场,转载请注明出处:https://www.678chat.com/ai/19553.html

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注

返回顶部