谷歌给机器人装上大脑：让它们先想清楚再动手

在人工智能技术持续突破的当下，谷歌DeepMind团队于9月25日再度引领风向，正式推出两款专为物理世界交互设计的AI模型——Gemini Robotics 1.5与Gemini Robotics-ER 1.5。这一双模型系统标志着具身智能（embodied intelligence）迈入新阶段，旨在赋予机器人更接近人类的感知、决策与行动能力，真正实现从“执行指令”到“理解任务”的跨越。

据官方博文披露，这两款模型并非孤立运作，而是构建在一个创新的“大脑-身体”协同架构之上。其中，Gemini Robotics-ER 1.5承担“战略大脑”的职责，专注于高层级的环境理解、任务规划与逻辑推理。它不仅能解析复杂指令，更能主动获取外部信息以辅助决策。例如当接收到“按本地法规分类垃圾”的指令时，模型会自主检索所在地区的环保政策，综合判断后生成一套完整执行方案，展现出前所未有的环境适应力。

一旦“大脑”完成规划，便会将任务拆解为一系列自然语言步骤，交由“身体”——Gemini Robotics 1.5来执行。该模型作为视觉-语言-行动（VLA）系统的核心，能够将抽象的语言指令精准转化为机械臂或移动底盘的具体动作。尤为关键的是，它具备“思维前置”机制：在动手之前，先通过内部语言流进行自我推理。比如面对衣物分类任务，它会先建立“浅色衣物归白桶，深色归黑桶”的规则认知，再据此规划抓取与投放路径。这种类人的“思考-行动”模式，不仅提升了任务完成率，也让机器行为更具可解释性。

更令人瞩目的是其强大的跨平台迁移能力。以往机器人在特定设备上训练的动作难以复用于其他机型，而Gemini Robotics 1.5成功打破了形态壁垒。实验显示，其在ALOHA 2机械臂上习得的技能，可无缝迁移至Apollo人形机器人和Franka双臂系统，即便两者在结构与自由度上差异显著，也无需额外训练即可高效复现动作，极大缩短了机器人部署周期。

随着AI深入物理世界，安全与可控性成为重中之重。谷歌强调，新系统内置多层安全防护机制，包括行动前的风险预判、对既有安全协议的严格遵循，以及在紧急情况下触发硬件级安全模块的能力，确保智能体在开放环境中的稳定运行。

目前，Gemini Robotics-ER 1.5已通过Gemini API向广大开发者开放，而功能更全面的Gemini Robotics 1.5则处于有限合作阶段，正与部分研究机构及工业伙伴展开深度测试。这一进展预示着通用机器人时代正加速到来。

相关文章

想玩转AI社交，腾讯元宝得大胆点

小心裸奔的开源AI！没人管可能被黑客当跳板

ChatGPT Agent 用户跑了七成五，定位不清成最大硬伤

清华推出法律大模型LegalOne-R1，智能司法要变天了！

Sora下载量暴跌45%！OpenAI的领先优势还稳吗？

小红书悄悄试水语音问一问：真人经验+AI，搜得更懂你

发表回复 取消回复

发表回复取消回复