678CHAT AI资讯谷歌开源MolmoAct机器人行动推理模型，突破三维空间动作规划瓶颈

谷歌开源MolmoAct机器人行动推理模型，突破三维空间动作规划瓶颈

作者: 678chat 发布: 2025 年 8 月 17 日 90阅读 0评论

8日，谷歌旗下AI研究机构正式在GitHub平台开源其最新研发的MolmoAct机器人"行动推理模型"(Action Reasoning Model，ARM)。这款专为具身智能设计的模型，致力于解决机器人在复杂三维环境中的动作规划难题，有望大幅提升智能体的自主决策能力。

与传统依赖文本指令的视觉语言行动模型(VLA)不同，MolmoAct通过创新的空间感知技术，实现了对物体深度与距离关系的精准捕捉。

该模型采用三阶段处理流程：

第一阶段：通过VQVAE预训练生成具有空间感知的Token，这些Token不仅包含物体几何特征，还精确编码了三维空间位置
第二阶段：在图像空间动态生成可视化路径点，清晰展示任务执行轨迹
第三阶段：将路径点转化为机器人可执行的底层指令，实现从规划到执行的完整闭环

测试数据显示，MolmoAct-7B在SimplerEnv模拟环境中表现突出：

新任务成功率72.1%，超越Physical Intelligence等竞争对手
LIBERO平台多任务测试中，经微调后成功率提升至86.6%
训练效率惊人：预训练仅需256颗H100 GPU/1天，微调仅需64颗H100/2小时

值得注意的是，系统在执行前会将运动轨迹可视化叠加，允许人工审查修正，确保操作安全。

目前项目已在GitHub全面开源（https://github.com/allenai/MolmoAct），包含模型权重、完整代码及工具链。这项开源举措将加速具身智能技术的实际应用落地。

本文来自网络，不代表678CHAT立场，转载请注明出处：https://www.678chat.com/ai/18091.html

11赞

标签:谷歌

发表回复取消回复