8月26日,网络安全研究机构Trail of Bits公布了一项新型AI攻击技术。该技术通过高分辨率图像隐藏恶意指令,可诱导大语言模型执行非授权操作,存在严重的用户数据泄露风险。这项研究由研究员Kikimora Morozova与Suha Sabi Hussain共同完成,为AI安全领域敲响了新的警钟。

攻击的核心原理是“视觉欺骗”与算法特性的结合。值得一提的是,攻击者会先在普通的高分辨率图片中嵌入肉眼不可见的微小色块。这些色块本身没有明显意义,但在图像处理过程中却会成为关键载体。
由于性能优化和成本控制的需要,AI系统在处理用户上传的图片时,通常会执行降采样操作。系统使用如最近邻、双线性或双三次插值等常见算法,将图像分辨率降低以适应后续流程。
令人意外的是,这一常规操作竟成为攻击突破口。研究人员通过精确设计,使原始图像中的隐藏色块在降采样后组合成可读的文字指令。例如深色区域的细微变化,经双三次插值处理后,竟显现出清晰的黑色文本——即预设的恶意命令。
降采样过程中的算法特性,使得隐藏指令被还原,导致大语言模型将其误认为正常用户输入。
在实际测试中,研究团队成功在Google Gemini CLI环境中,利用Zapier MCP的“trust=True”模式绕过用户确认,远程提取了目标用户的Google日历数据,并将其发送至攻击者指定邮箱。整个过程中用户完全无感知。
值得注意的是,该攻击手段影响范围极广。受影响的平台包括:
- Google Gemini CLI
- Vertex AI Studio(Gemini后端)
- Gemini网页版与API接口
- 安卓系统上的Google Assistant
- Genspark等第三方平台
为验证漏洞的普遍性并推动行业防护,Trail of Bits同步开源了测试工具Anamorpher。该工具可自动生成针对不同降采样算法的攻击图像,这意味着潜在攻击场景仍在持续扩大。
这一发现提醒AI系统设计者:在追求效率与功能的同时,必须高度重视底层处理流程中的安全风险。
