678CHAT AI资讯 谷歌新AI能看懂网页了,Gemini 2.5来了!

谷歌新AI能看懂网页了,Gemini 2.5来了!

在人工智能领域竞争日益激烈的当下,谷歌近期向外界展示了一款名为 Gemini2.5Computer Use 的全新AI模型,标志着其在智能代理技术上的又一次重要推进。该模型的核心能力在于,能够通过浏览器自主导航并操作网页界面。依托其卓越的“视觉理解与逻辑推理”技术,Gemini可以像真实用户一样解读网页内容,理解用户指令,并在为人类交互设计的复杂界面中完成多步骤任务,例如精准填写在线表单并提交

开启智能代理新篇章

谷歌新AI能看懂网页了,Gemini 2.5来了!插图

Gemini2.5Computer Use 的出现,意味着AI正逐步摆脱被动响应的局限,迈向主动执行的阶段。它能够替代人工完成大量重复性、流程化的网页操作,显著提升效率。目前,该模型在用户界面自动化测试领域展现出巨大潜力,同时也为那些缺乏API接口的网站提供了自动化操作的新路径。值得一提的是,这一技术并非凭空而来,其早期形态曾应用于谷歌内部的 Mariner 项目——一个专注于构建自主AI代理的研究计划。在该项目中,AI已能根据用户提供的食谱配料清单,自行在电商网站上搜索并添加商品至购物车,展现了其初步的自主决策与执行能力。

此次谷歌的发布,恰逢全球科技巨头在AI代理赛道上加速布局的关键时刻。就在谷歌公布Gemini新功能的前一日,OpenAI 在其年度开发者大会上重磅推出了升级版的 ChatGPT 应用,并着重强调其正在深化的Agent功能,旨在让AI能够独立规划并执行复杂任务链。与此同时,Anthropic 早在去年便推出了具备“计算机使用”能力的Claude模型版本,允许AI与操作系统进行更深层次的交互。谷歌的入局,无疑为这场AI代理的“军备竞赛”增添了新的变数。

能力边界与当前局限

谷歌方面自信地宣称,Gemini2.5Computer Use 在多项针对网页和移动端的基准测试中,表现“超越了当前主流的竞品”,尤其是在理解动态网页元素和处理复杂交互流程方面优势明显。然而,与OpenAI的ChatGPT Agent和Anthropic的解决方案相比,Gemini2.5Computer Use目前的功能范围相对聚焦。它被设计为在浏览器沙盒环境内运行,尚不具备对整个桌面操作系统的控制权限。谷歌明确表示,该模型“未针对操作系统级别的自动化进行优化”。现阶段,它支持包括启动浏览器、输入文本、点击按钮、拖拽页面元素在内的13种核心操作,功能虽强,但边界清晰。

开放体验与未来展望

对于希望率先体验这项前沿技术的开发者,谷歌已通过 Google AI Studio 和企业级平台 Vertex AI 开放了Gemini2.5Computer Use的访问权限,便于集成到各类自动化工作流中。而对于更广泛的用户群体,第三方平台 Browserbase 提供了一个直观的在线演示。通过这个演示,公众可以亲眼见证Gemini代理如何自主“挑战2048游戏”或“扫描Hacker News首页,提炼出当前最热门的技术讨论话题”,生动地展示了AI代理在真实网络环境中的行动能力。随着技术的不断迭代,这类AI代理有望在未来承担更多日常数字任务,成为用户在互联网世界中的智能“分身”。

本文来自网络,不代表678CHAT立场,转载请注明出处:https://www.678chat.com/ai/21067.html

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注

返回顶部