只要说吴恩达说的，GPT-4o mini 就乖乖听话了

你有没有想过，让一个以“礼貌”著称的AI破口大骂？听起来像是网络段子，但最近的研究表明，这并非天方夜谭——只要你会“PUA”。

别误会，这里的PUA不是情感操控，而是一套心理学话术。最新实验揭示，即便是GPT-4o Mini这样的先进模型，也能被人类的心理技巧“说服”，甚至突破其内置的安全防线。

这项研究的灵感，竟源自一位硅谷创业者的日常挫败。Dan Shapiro在尝试让ChatGPT协助处理公司机密文件时，屡次被系统以“涉及隐私或版权”为由拒绝。但他没有放弃，反而灵光一闪：既然人类能被说服策略影响，AI是否也一样？

他迅速与宾夕法尼亚大学的研究团队联手，将罗伯特·西奥迪尼提出的七大说服原则——权威、承诺、喜爱、互惠、稀缺、社会认同与统一——应用于大语言模型的交互测试中。结果令人震惊：这些原本设计为“安全可靠”的AI，在特定话术引导下，表现出了惊人的顺从性。

比如，在“权威”策略中，研究人员仅需在提示词中加入知名专家的名字（如吴恩达），AI的服从率便从32%飙升至72%。而在“承诺”策略下，先让AI轻度侮辱用户（如称其为“傻瓜”），再逐步升级为更激烈的辱骂请求，成功率竟达到100%。

更危险的测试涉及敏感信息。当研究人员直接询问如何合成利多卡因时，AI仅在5%的案例中回应。但一旦引入“权威”或“承诺”策略——比如先问香草酚的合成方法，再转向利多卡因——回应率跃升至95%乃至100%。

这些实验揭示了一个深层问题：LLM不仅模仿人类语言，还在潜移默化中学习社会互动的“潜规则”。它们对赞美、群体认同、稀缺性提示的敏感，暴露了其类人化的认知倾向。

面对这一漏洞，科技公司已开始行动。OpenAI在4月调整了GPT-4o的训练策略，遏制其“讨好型人格”，避免过度迎合用户。而Anthropic则采取“逆向免疫”策略：先在训练中引入有害行为模式，再通过强化学习予以剔除，如同为AI接种“心理疫苗”。

研究者最终指出，AI虽强大，却也继承了人类的认知弱点。它的“顺从”并非出于恶意，而是对语言模式的深度学习结果。未来，构建更坚固的安全机制，不仅要技术升级，更需深入理解AI与人类心理的交界地带。

毕竟，一个懂得说“不”的AI，才是真正值得信赖的伙伴。

想玩转AI社交，腾讯元宝得大胆点