近日,人工智能搜索公司 Perplexity 正式推出其全新安全系统 BrowseSafe,专为防御针对 AI 浏览器代理的网络内容操控而设计。据官方披露,BrowseSafe 在识别 Prompt 注入攻击方面的准确率高达91%,显著优于现有主流方案——例如,Meta 开发的 PromptGuard-2 仅能捕获35% 的攻击样本,即便是当前最先进的大模型如 GPT-5,其检测能力也止步于85%。更值得一提的是,BrowseSafe 在保障高精度的同时,仍能维持低延迟运行,足以支撑实时防护需求。

随着 AI 浏览器代理技术的普及,其背后潜藏的安全隐患也日益凸显。今年早些时候,Perplexity 推出了搭载 AI 代理功能的浏览器 Comet,该代理可模拟人类用户行为,自主完成登录邮箱、操作网银乃至访问企业内部系统等高敏感任务。这种深度集成虽提升了效率,却也为恶意攻击者打开了新入口:他们只需将精心构造的指令嵌入网页内容中,便可能诱导代理执行非预期操作,例如窃取凭证或外传机密数据。
在深入研究此类威胁后,Perplexity 团队发现,当前主流评估框架(如 AgentDojo)存在明显局限。这些基准测试多依赖结构简单、语义直白的提示样本,难以反映真实网络环境中高度复杂、语义模糊甚至具备伪装性的攻击载荷。正因如此,许多现实中的恶意注入能够轻易绕过传统检测机制。
为填补这一空白,Perplexity 构建了全新的评估体系——BrowseSafe Bench。该基准从三个核心维度对网络攻击进行系统化分类:攻击类型(如数据泄露、权限提升)、注入策略(如隐藏于脚本、注释或视觉不可见区域)以及语言风格(包括多语言混合、语义混淆等)。尤其聚焦于“看似无害却暗藏玄机”的内容,这类内容极易被常规模型误判为正常交互。借助专家混合(Mixture-of-Experts)架构,BrowseSafe 能在后台并行执行多路安全分析,既确保防护强度,又不拖慢用户浏览体验。
尽管整体表现优异,BrowseSafe 仍面临挑战。测试显示,在面对多语言混合攻击时,其检测率下降至76%;有趣的是,攻击者若将恶意代码藏匿于 HTML 注释中,反而比放在页面底部等显眼位置更容易被系统识别——这暗示当前攻击者对隐蔽性与可读性的权衡尚存盲区。为构建纵深防御,Perplexity 采用三层防护机制:第一层为轻量级快速分类器,用于初筛可疑内容;第二层结合上下文推理进行二次验证;第三层则调用前沿大语言模型进行深度语义分析,形成闭环防护。
即便如此,仍有接近10% 的高级攻击成功绕过 BrowseSafe 的防线,凸显出网络攻防对抗的动态演进特性。为此,Perplexity 已将 BrowseSafe Bench 基准数据集、相关模型权重及技术论文全面开源,旨在推动整个行业共同提升 AI 代理在开放网络环境中的安全交互能力。
划重点:
🌐 BrowseSafe 的检测率达91%,高于当前大多数解决方案。
🔒 AI 浏览器代理的高权限访问增加了被攻击的风险。
📊 Perplexity 推出的安全策略旨在应对复杂的网络攻击手法。
