678CHAT AI资讯 NVIDIA 推出 NitroGen:让游戏 AI 看得懂、动得快的新模型

NVIDIA 推出 NitroGen:让游戏 AI 看得懂、动得快的新模型

人工智能在游戏领域的应用再次迎来突破性进展,NVIDIA 研究团队最新发布的 NitroGen 正在重新定义通用游戏代理的学习方式。这款全新的视觉行动基础模型,能够直接从海量网络视频中“观察”并学习真实玩家如何操控手柄进行游戏,无需任何额外标注或干预。经过长达40,000小时、覆盖超1,000款商业游戏的沉浸式训练,NitroGen 展现出了惊人的泛化能力,并同步开源了其数据集、模拟器与预训练策略,为后续研究铺平道路。

NVIDIA 推出 NitroGen:让游戏 AI 看得懂、动得快的新模型插图

项目的数据构建始于对公开视频内容的大规模采集。研究人员从多个平台收集了总计71,000小时的游戏实录,这些视频均带有可视化控制器输入叠加层,成为动作还原的关键线索。通过严格的质量筛选机制,最终保留了来自818位不同主播的38,739段高质量片段,总时长压缩至40,000小时。这组数据横跨846款各类型游戏,其中动作角色扮演类占据主导地位,贡献了近三分之一的游戏时长;平台跳跃类和动作冒险类紧随其后,其余则广泛分布于体育竞技、Roguelike 及赛车等多个子类别,确保了模型训练的多样性与广度。

为了精准提取每一帧画面中的操作指令,NitroGen 设计了一套三步走的动作解析流程。系统首先利用300个精心设计的控制器模板定位屏幕上的手柄图像区域,随后引入基于 SegFormer 的语义分割模型对按键状态进行分类识别,最后结合空间坐标优化算法完成动作向量的精细化重建。这一链条式的处理方案显著提升了动作克隆的准确性,使模型能更真实地复现人类玩家的操作逻辑。

为了让模型能在标准环境下运行测试,团队还开发了一个通用型游戏封装模拟器。该工具可将任意 Windows 平台的商业游戏无缝接入 Gymnasium 接口,支持逐帧交互控制,且完全无需修改原始游戏代码。这种即插即用的设计极大增强了 NitroGen 的适用性,使其能够在不同游戏中快速部署同一套决策策略。

在架构层面,NitroGen 采用 Diffusion Transformer 作为核心策略网络,直接处理256×256分辨率的RGB图像输入。预训练完成后,模型在未见过的游戏任务中展现出45%至60%的零样本完成率。更重要的是,当迁移到新游戏时,其性能相较从零开始训练提升了最高达52%,充分验证了大规模行为先验的有效性。

https://huggingface.co/nvidia/NitroGen

划重点:

📊 NitroGen 实现了从无标注游戏视频中自主学习操作的能力,开启通用代理新路径。

🎮 训练数据涵盖40,000小时跨品类游戏内容,支撑模型广泛适应性。

🚀 预训练带来的迁移优势明显,在新任务中性能提升高达52%。

本文来自网络,不代表678CHAT立场,转载请注明出处:https://www.678chat.com/ai/22560.html

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注

返回顶部