谷歌新AI能看懂网页了，Gemini 2.5来了！

在人工智能领域竞争日益激烈的当下，谷歌近期向外界展示了一款名为 Gemini2.5Computer Use 的全新AI模型，标志着其在智能代理技术上的又一次重要推进。该模型的核心能力在于，能够通过浏览器自主导航并操作网页界面。依托其卓越的“视觉理解与逻辑推理”技术，Gemini可以像真实用户一样解读网页内容，理解用户指令，并在为人类交互设计的复杂界面中完成多步骤任务，例如精准填写在线表单并提交。

开启智能代理新篇章

Gemini2.5Computer Use 的出现，意味着AI正逐步摆脱被动响应的局限，迈向主动执行的阶段。它能够替代人工完成大量重复性、流程化的网页操作，显著提升效率。目前，该模型在用户界面自动化测试领域展现出巨大潜力，同时也为那些缺乏API接口的网站提供了自动化操作的新路径。值得一提的是，这一技术并非凭空而来，其早期形态曾应用于谷歌内部的 Mariner 项目——一个专注于构建自主AI代理的研究计划。在该项目中，AI已能根据用户提供的食谱配料清单，自行在电商网站上搜索并添加商品至购物车，展现了其初步的自主决策与执行能力。

此次谷歌的发布，恰逢全球科技巨头在AI代理赛道上加速布局的关键时刻。就在谷歌公布Gemini新功能的前一日，OpenAI 在其年度开发者大会上重磅推出了升级版的 ChatGPT 应用，并着重强调其正在深化的Agent功能，旨在让AI能够独立规划并执行复杂任务链。与此同时，Anthropic 早在去年便推出了具备“计算机使用”能力的Claude模型版本，允许AI与操作系统进行更深层次的交互。谷歌的入局，无疑为这场AI代理的“军备竞赛”增添了新的变数。

能力边界与当前局限

谷歌方面自信地宣称，Gemini2.5Computer Use 在多项针对网页和移动端的基准测试中，表现“超越了当前主流的竞品”，尤其是在理解动态网页元素和处理复杂交互流程方面优势明显。然而，与OpenAI的ChatGPT Agent和Anthropic的解决方案相比，Gemini2.5Computer Use目前的功能范围相对聚焦。它被设计为在浏览器沙盒环境内运行，尚不具备对整个桌面操作系统的控制权限。谷歌明确表示，该模型“未针对操作系统级别的自动化进行优化”。现阶段，它支持包括启动浏览器、输入文本、点击按钮、拖拽页面元素在内的13种核心操作，功能虽强，但边界清晰。

开放体验与未来展望

对于希望率先体验这项前沿技术的开发者，谷歌已通过 Google AI Studio 和企业级平台 Vertex AI 开放了Gemini2.5Computer Use的访问权限，便于集成到各类自动化工作流中。而对于更广泛的用户群体，第三方平台 Browserbase 提供了一个直观的在线演示。通过这个演示，公众可以亲眼见证Gemini代理如何自主“挑战2048游戏”或“扫描Hacker News首页，提炼出当前最热门的技术讨论话题”，生动地展示了AI代理在真实网络环境中的行动能力。随着技术的不断迭代，这类AI代理有望在未来承担更多日常数字任务，成为用户在互联网世界中的智能“分身”。

开启智能代理新篇章

能力边界与当前局限

开放体验与未来展望

相关文章

想玩转AI社交，腾讯元宝得大胆点

小心裸奔的开源AI！没人管可能被黑客当跳板

ChatGPT Agent 用户跑了七成五，定位不清成最大硬伤

清华推出法律大模型LegalOne-R1，智能司法要变天了！

Sora下载量暴跌45%！OpenAI的领先优势还稳吗？

小红书悄悄试水语音问一问：真人经验+AI，搜得更懂你

发表回复 取消回复

发表回复取消回复