678CHAT AI资讯 港大联手快手突破AI视频生成瓶颈:新框架让长视频场景连贯如记忆重现

港大联手快手突破AI视频生成瓶颈:新框架让长视频场景连贯如记忆重现

AIbase报道 近日,香港大学与快手可灵实验室合作,在AI视频生成领域取得重大突破。双方联合发布论文《Context as Memory: Scene-Consistent Interactive Long Video Generation with Memory Retrieval》,提出全新“Context-as-Memory”框架。该框架有效解决了长视频生成中一直困扰行业的场景一致性问题。

核心机制:用历史画面构建动态记忆库

这项研究摒弃传统依赖复杂3D建模或外部存储的做法,转而将已生成的视频帧视为可复用的“记忆”。通过上下文学习技术,模型能从历史帧提取关键视觉信息,并将其作为后续生成的条件输入,从而保证时间维度上的场景连贯性。

值得一提的是,该框架展现出隐式学习3D空间先验的能力。这一特性与谷歌近期发布的Genie3模型技术方向相似,意味着AI视频理解正逐步走向更深层的空间感知。

关键技术:基于视场角的记忆筛选系统

生成长视频时,历史帧数量呈指数增长,对算力构成严峻挑战。为此,团队创新设计了一套基于相机视场角(FOV)的记忆检索机制。

该系统能够智能分析当前视角与历史帧之间的空间重叠关系,动态筛选最相关的画面作为“记忆锚点”,从而大幅减少无效信息处理负担。

这不仅显著提升训练和推理效率,还在保持高视觉一致性的同时有效控制资源消耗,为实际落地提供可能。通过精准匹配相机运动轨迹,系统实现高效调用关键上下文,避免传统方法中因信息过载导致的性能下降。

数据支撑与交互体验

为验证技术效果,团队使用Unreal Engine 5构建了一个长视频数据集。该数据集包含丰富场景和精确相机运动轨迹标注。

用户只需输入一张初始图像,并自由设定相机路径,就可在生成的虚拟环境中实现沉浸式漫游,展现出强大的交互潜力。

实测表现远超同类方案

大量实验表明,Context-as-Memory框架在生成数十秒时长视频任务中,表现出优秀的场景记忆与跨场景泛化能力。

相比当前最先进的生成模型,该方法在视觉一致性、细节保留和动态稳定性方面均有明显提升。即使在训练未见的开放场景中,仍能保持连贯的空间逻辑。

此次突破不仅为AI影视创作和虚拟现实构建提供了新工具,更标志着长时序、高保真视频生成技术日趋成熟,未来将深刻影响数字内容生产流程。

本文来自网络,不代表678CHAT立场,转载请注明出处:https://www.678chat.com/ai/19162.html

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注

返回顶部