678CHAT AI资讯 腾讯开源了!能原生3D重建的超长程世界模型HunyuanWorld-Voyager来了

腾讯开源了!能原生3D重建的超长程世界模型HunyuanWorld-Voyager来了

科技前沿再传捷报,腾讯正式推出其最新研发成果——HunyuanWorld-Voyager,一款革命性的视频扩散框架。该技术仅需一张静态图像作为输入,便能构建出具备完整空间逻辑的3D点云环境,用户更可自定义摄像机路径,在生成的虚拟世界中实现自由穿梭与沉浸式漫游,为视觉内容创作带来前所未有的可能性。

腾讯开源了!能原生3D重建的超长程世界模型HunyuanWorld-Voyager来了插图

据官方介绍,HunyuanWorld-Voyager是全球首个原生支持3D重建的远距世界模型,标志着AI在空间智能领域的又一次重大突破。它不仅能够同步输出高保真的RGB视频与精准的深度图,更重要的是,这些数据无需依赖COLMAP等外部工具进行后期处理,即可直接用于三维建模,极大提升了从概念到成品的转化效率,为VR体验、游戏场景搭建以及仿真系统开发提供了强有力的技术支撑。

  • 原生3D生成:摒弃传统复杂的后处理流程,模型直接输出可用于3D应用的点云视频,实现“一键成模”的高效工作流。

  • 智能世界缓存:创新引入可扩展的3D内存机制,通过动态缓存与几何校验,确保在任意视角移动下场景结构始终保持一致,杜绝画面撕裂或形变。

  • 性能领跑行业:在权威的斯坦福WorldScore基准测试中斩获头名,同时在多项视频生成与3D重建任务中表现卓越,展现出全面领先的技术实力。

该框架的核心架构由两大模块构成。其一是“世界一致的视频扩散”系统,通过统一建模方法,结合已有视觉观测信息,同步生成高度对齐的彩色视频与深度序列,确保整个虚拟空间在视觉与几何上的连贯性。其二是“长距离世界探索”机制,利用自回归推理与点云优化策略,结合上下文感知的采样技术,实现对场景的逐步扩展与无缝衔接,即便在复杂路径下也能维持流畅自然的视觉体验。

为支撑如此庞大的模型训练,研发团队构建了一套全自动化的数据生成引擎。该系统可对任意视频内容自动估算相机运动轨迹与真实深度信息,彻底摆脱对人工标注的依赖。基于这一流程,HunyuanWorld-Voyager整合了超过10万段来自真实场景拍摄与虚幻引擎渲染的视频素材,形成了一个规模庞大、类型丰富的训练数据集,为模型的泛化能力打下坚实基础。

实测表现同样令人惊艳。在与四款主流开源相机可控视频生成模型的横向对比中,HunyuanWorld-Voyager在PSNR、SSIM及LPIPS等多项关键指标上全面领先,充分验证了其在画面质量与细节还原上的卓越能力。同时,其生成场景在几何结构的一致性方面也展现出明显优势,为后续的3D应用提供了可靠保障。

尤为值得一提的是,该模型在WorldScore静态评测中拔得头筹,彰显其在相机控制精度与空间逻辑一致性方面的顶尖水平。这一突破不仅是混元系列模型的重要里程碑,更为未来智能生成内容的发展指明了方向。

划重点:

🌍 仅需一张图,即可构建可自由探索的3D虚拟世界,开启沉浸式内容新纪元。

🎥 同步输出RGB与深度视频,原生支持高质量三维重建,简化制作流程。

🏆 多项测试中表现卓越,技术实力领跑全球,重新定义AI空间智能边界。

本文来自网络,不代表678CHAT立场,转载请注明出处:https://www.678chat.com/ai/19669.html

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注

返回顶部