腾讯开源了！能原生3D重建的超长程世界模型HunyuanWorld-Voyager来了

科技前沿再传捷报，腾讯正式推出其最新研发成果——HunyuanWorld-Voyager，一款革命性的视频扩散框架。该技术仅需一张静态图像作为输入，便能构建出具备完整空间逻辑的3D点云环境，用户更可自定义摄像机路径，在生成的虚拟世界中实现自由穿梭与沉浸式漫游，为视觉内容创作带来前所未有的可能性。

据官方介绍，HunyuanWorld-Voyager是全球首个原生支持3D重建的远距世界模型，标志着AI在空间智能领域的又一次重大突破。它不仅能够同步输出高保真的RGB视频与精准的深度图，更重要的是，这些数据无需依赖COLMAP等外部工具进行后期处理，即可直接用于三维建模，极大提升了从概念到成品的转化效率，为VR体验、游戏场景搭建以及仿真系统开发提供了强有力的技术支撑。

原生3D生成：摒弃传统复杂的后处理流程，模型直接输出可用于3D应用的点云视频，实现“一键成模”的高效工作流。
智能世界缓存：创新引入可扩展的3D内存机制，通过动态缓存与几何校验，确保在任意视角移动下场景结构始终保持一致，杜绝画面撕裂或形变。
性能领跑行业：在权威的斯坦福WorldScore基准测试中斩获头名，同时在多项视频生成与3D重建任务中表现卓越，展现出全面领先的技术实力。

该框架的核心架构由两大模块构成。其一是“世界一致的视频扩散”系统，通过统一建模方法，结合已有视觉观测信息，同步生成高度对齐的彩色视频与深度序列，确保整个虚拟空间在视觉与几何上的连贯性。其二是“长距离世界探索”机制，利用自回归推理与点云优化策略，结合上下文感知的采样技术，实现对场景的逐步扩展与无缝衔接，即便在复杂路径下也能维持流畅自然的视觉体验。

为支撑如此庞大的模型训练，研发团队构建了一套全自动化的数据生成引擎。该系统可对任意视频内容自动估算相机运动轨迹与真实深度信息，彻底摆脱对人工标注的依赖。基于这一流程，HunyuanWorld-Voyager整合了超过10万段来自真实场景拍摄与虚幻引擎渲染的视频素材，形成了一个规模庞大、类型丰富的训练数据集，为模型的泛化能力打下坚实基础。

实测表现同样令人惊艳。在与四款主流开源相机可控视频生成模型的横向对比中，HunyuanWorld-Voyager在PSNR、SSIM及LPIPS等多项关键指标上全面领先，充分验证了其在画面质量与细节还原上的卓越能力。同时，其生成场景在几何结构的一致性方面也展现出明显优势，为后续的3D应用提供了可靠保障。

尤为值得一提的是，该模型在WorldScore静态评测中拔得头筹，彰显其在相机控制精度与空间逻辑一致性方面的顶尖水平。这一突破不仅是混元系列模型的重要里程碑，更为未来智能生成内容的发展指明了方向。

划重点:

🌍 仅需一张图，即可构建可自由探索的3D虚拟世界，开启沉浸式内容新纪元。

🎥 同步输出RGB与深度视频，原生支持高质量三维重建，简化制作流程。

🏆 多项测试中表现卓越，技术实力领跑全球，重新定义AI空间智能边界。

相关文章

想玩转AI社交，腾讯元宝得大胆点

小心裸奔的开源AI！没人管可能被黑客当跳板

ChatGPT Agent 用户跑了七成五，定位不清成最大硬伤

清华推出法律大模型LegalOne-R1，智能司法要变天了！

Sora下载量暴跌45%！OpenAI的领先优势还稳吗？

小红书悄悄试水语音问一问：真人经验+AI，搜得更懂你

发表回复 取消回复

发表回复取消回复