港大联手快手突破AI视频生成瓶颈：新框架让长视频场景连贯如记忆重现

AIbase报道 近日，香港大学与快手可灵实验室合作，在AI视频生成领域取得重大突破。双方联合发布论文《Context as Memory: Scene-Consistent Interactive Long Video Generation with Memory Retrieval》，提出全新“Context-as-Memory”框架。该框架有效解决了长视频生成中一直困扰行业的场景一致性问题。

核心机制：用历史画面构建动态记忆库

这项研究摒弃传统依赖复杂3D建模或外部存储的做法，转而将已生成的视频帧视为可复用的“记忆”。通过上下文学习技术，模型能从历史帧提取关键视觉信息，并将其作为后续生成的条件输入，从而保证时间维度上的场景连贯性。

值得一提的是，该框架展现出隐式学习3D空间先验的能力。这一特性与谷歌近期发布的Genie3模型技术方向相似，意味着AI视频理解正逐步走向更深层的空间感知。

关键技术：基于视场角的记忆筛选系统

生成长视频时，历史帧数量呈指数增长，对算力构成严峻挑战。为此，团队创新设计了一套基于相机视场角（FOV）的记忆检索机制。

该系统能够智能分析当前视角与历史帧之间的空间重叠关系，动态筛选最相关的画面作为“记忆锚点”，从而大幅减少无效信息处理负担。

这不仅显著提升训练和推理效率，还在保持高视觉一致性的同时有效控制资源消耗，为实际落地提供可能。通过精准匹配相机运动轨迹，系统实现高效调用关键上下文，避免传统方法中因信息过载导致的性能下降。

数据支撑与交互体验

为验证技术效果，团队使用Unreal Engine 5构建了一个长视频数据集。该数据集包含丰富场景和精确相机运动轨迹标注。

用户只需输入一张初始图像，并自由设定相机路径，就可在生成的虚拟环境中实现沉浸式漫游，展现出强大的交互潜力。

实测表现远超同类方案

大量实验表明，Context-as-Memory框架在生成数十秒时长视频任务中，表现出优秀的场景记忆与跨场景泛化能力。

相比当前最先进的生成模型，该方法在视觉一致性、细节保留和动态稳定性方面均有明显提升。即使在训练未见的开放场景中，仍能保持连贯的空间逻辑。

此次突破不仅为AI影视创作和虚拟现实构建提供了新工具，更标志着长时序、高保真视频生成技术日趋成熟，未来将深刻影响数字内容生产流程。

核心机制：用历史画面构建动态记忆库

关键技术：基于视场角的记忆筛选系统

数据支撑与交互体验

实测表现远超同类方案

相关文章

想玩转AI社交，腾讯元宝得大胆点

小心裸奔的开源AI！没人管可能被黑客当跳板

ChatGPT Agent 用户跑了七成五，定位不清成最大硬伤

清华推出法律大模型LegalOne-R1，智能司法要变天了！

Sora下载量暴跌45%！OpenAI的领先优势还稳吗？

小红书悄悄试水语音问一问：真人经验+AI，搜得更懂你

发表回复 取消回复

发表回复取消回复