腾讯搞了个新玩意，混元Voyager3D能生成超长又连贯的虚拟漫游场景

9 月 2 日，腾讯混元团队在3D生成技术领域再下一城，正式推出其世界模型系列的全新成员——HunyuanWorld-Voyager（简称混元 Voyager）。这款模型不仅是业内首个支持原生3D重建的超长距离漫游世界模型，更标志着AI在空间智能应用上的又一次重大突破。

与传统视频生成模型不同，混元 Voyager 的核心优势在于其“从3D输入到3D输出”的闭环能力。它不再局限于生成一段段孤立的视频帧，而是能够构建出具备空间一致性的完整3D场景，支持用户沿任意相机轨迹进行长距离自由漫游，并直接将生成结果导出为包含深度信息的RGB-D视频或3D点云数据，彻底摆脱对COLMAP等外部重建工具的依赖。

这一技术革新背后，是混元团队对视频生成与3D建模融合路径的深度探索。面对当前可交互视频模型难以满足虚拟现实、物理仿真等场景对显式3D结构的需求，以及纯3D生成因数据稀缺和内存效率低下导致泛化能力不足的双重挑战，Voyager创新性地引入场景深度预测机制，通过相机可控的视频生成技术，结合初始视图与用户指定轨迹，合成视角连续、几何精确的3D动态场景。

尤为值得一提的是其“3D空间记忆”系统。该机制不仅确保了在键盘或手柄操控下画面视角的高度连贯，更构建了一个动态更新的闭环：模型生成的每一帧都会实时反馈至世界缓存，不断优化后续帧的生成质量。这种可扩展的缓存设计，既大幅拓展了探索范围，也显著提升了复杂场景的细节还原度与整体一致性。

功能层面，混元 Voyager 展现出极强的延展性。除了基础的3D漫游，它还能实现视频场景重建、3D物体纹理生成、风格化编辑乃至深度估计等多种高级应用，为游戏开发、数字孪生、AR/VR内容创作提供了强大的底层支持。同时，其与已开源的混元世界模型1.0及Lite版高度兼容，形成从轻量部署到高性能生成的完整技术矩阵。

性能表现上，Voyager在权威基准WorldScore中斩获综合能力榜首，尤其在视频生成与3D重建双项指标上全面超越现有开源方案。其生成的3DGS（Gaussian Splatting）场景在几何精度与视觉保真度上均达到领先水平。

随着Voyager的上线，腾讯混元在3D生成领域的开源布局进一步完善。从文生图、视频生成到3D世界构建，混元系列模型持续输出高质量开源成果，下载量稳居社区前列。此次发布的Voyager技术报告、源代码已全面开放，项目主页、GitHub及Hugging Face平台均可免费获取，为全球开发者与研究者提供了探索空间智能的全新工具。

相关文章

想玩转AI社交，腾讯元宝得大胆点

小心裸奔的开源AI！没人管可能被黑客当跳板

ChatGPT Agent 用户跑了七成五，定位不清成最大硬伤

清华推出法律大模型LegalOne-R1，智能司法要变天了！

Sora下载量暴跌45%！OpenAI的领先优势还稳吗？

小红书悄悄试水语音问一问：真人经验+AI，搜得更懂你

发表回复 取消回复

发表回复取消回复