3D动作角色扮演游戏领域迎来重大突破——人工智能的实战能力正取得跨越式发展。淘天集团未来生活实验室最新研发的CombatVLA模型,凭借30亿参数的规模,在《黑神话:悟空》与《只狼:影逝二度》等高难度游戏中,展现出超越GPT-4o甚至人类职业玩家的战斗表现。这项研究成果已被ICCV 2025收录,引发行业震动。

该模型的核心突破在于其实时响应能力。与依赖强化学习反复试错或大模型高延迟推理的传统方案不同,CombatVLA通过创新的"动作思维"机制(Action-of-Thought, AoT),将视觉输入直接转化为可执行的键鼠指令序列,实现了战术决策与动作执行的完美同步。
在测试中,模型展现出接近职业电竞选手的战术素养:血量危急时能精准后撤并使用恢复技能;抓住敌人破绽后立即释放控制法术衔接连招;甚至能预判攻击轨迹完成闪避反击。
值得一提的是,在《只狼》这类高难度对决中,模型能完美格挡致命攻击并发动忍杀终结技。这些行云流水的操作,标志着AI在高强度对抗场景中的决策能力取得质的飞跃。

支撑这一表现的是一套系统化技术架构:
- 开发轻量级动作追踪器,自动采集人类玩家的操作数据
- 构建CUBench评测基准,包含单帧判断、多帧推理等任务
- 采用AoT数据格式,将战术解释与动作指令有机结合
- 引入特殊截断标记⟨TRUNC⟩,在保证逻辑的前提下压缩响应时间
训练过程采用三阶段渐进式方案:
- 视频级粗粒度学习:建立整体战斗认知
- 帧级细粒度训练:掌握精确动作时序
- 截断微调阶段:优化实时响应效率
重要提示:训练过程中视觉编码器保持冻结,仅微调语言模型部分,这种设计显著提升了训练效率。
实测数据显示:
| 战斗理解准确率 | 领先Gemini等模型6% |
| 推理延迟 | 低至1.8秒 |
| 速度提升 | 较同类方案快50倍 |

目前CombatVLA已能通过pyautogui等工具直接操控PC游戏,实现从感知到执行的完整闭环。研究团队透露,下一步将重点提升模型对复杂场景的理解深度,探索在虚拟现实、具身智能等领域的应用可能。
