678CHAT AI资讯 谷歌开源MolmoAct机器人行动推理模型,突破三维空间动作规划瓶颈

谷歌开源MolmoAct机器人行动推理模型,突破三维空间动作规划瓶颈

8日,谷歌旗下AI研究机构正式在GitHub平台开源其最新研发的MolmoAct机器人"行动推理模型"(Action Reasoning Model,ARM)。这款专为具身智能设计的模型,致力于解决机器人在复杂三维环境中的动作规划难题,有望大幅提升智能体的自主决策能力。

谷歌开源MolmoAct机器人行动推理模型,突破三维空间动作规划瓶颈插图

与传统依赖文本指令的视觉语言行动模型(VLA)不同,MolmoAct通过创新的空间感知技术,实现了对物体深度与距离关系的精准捕捉。

该模型采用三阶段处理流程:

  • 第一阶段:通过VQVAE预训练生成具有空间感知的Token,这些Token不仅包含物体几何特征,还精确编码了三维空间位置
  • 第二阶段:在图像空间动态生成可视化路径点,清晰展示任务执行轨迹
  • 第三阶段:将路径点转化为机器人可执行的底层指令,实现从规划到执行的完整闭环

谷歌开源MolmoAct机器人行动推理模型,突破三维空间动作规划瓶颈插图1

测试数据显示,MolmoAct-7B在SimplerEnv模拟环境中表现突出:

  • 新任务成功率72.1%,超越Physical Intelligence等竞争对手
  • LIBERO平台多任务测试中,经微调后成功率提升至86.6%
  • 训练效率惊人:预训练仅需256颗H100 GPU/1天,微调仅需64颗H100/2小时

值得注意的是,系统在执行前会将运动轨迹可视化叠加,允许人工审查修正,确保操作安全。

目前项目已在GitHub全面开源(https://github.com/allenai/MolmoAct),包含模型权重、完整代码及工具链。这项开源举措将加速具身智能技术的实际应用落地。

谷歌开源MolmoAct机器人行动推理模型,突破三维空间动作规划瓶颈插图2

本文来自网络,不代表678CHAT立场,转载请注明出处:https://www.678chat.com/ai/18091.html

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注

返回顶部