678CHAT AI资讯 苹果搞了个新玩意儿:STARFlow-V,彻底颠覆视频生成!

苹果搞了个新玩意儿:STARFlow-V,彻底颠覆视频生成!

苹果公司近日发布了其自主研发的视频生成模型 STARFlow-V,这一系统在技术路线上与当前主流的 Sora、Veo 以及 Runway 等扩散模型形成鲜明对比。STARFlow-V 并未沿用逐步去噪的扩散机制,而是采用了一种名为“归一化流”的生成架构,旨在解决长视频生成过程中常见的稳定性问题。

苹果搞了个新玩意儿:STARFlow-V,彻底颠覆视频生成!插图

据苹果官方介绍,STARFlow-V 是目前首个在视觉保真度和生成效率方面能与扩散模型正面竞争的归一化流模型。尽管其输出分辨率为640×480,帧率设定为每秒16帧,但该模型通过一次性映射噪声到视频数据的数学变换,在单次推理中完成整段视频生成,大幅减少了传统多步生成流程中可能引入的误差,同时显著提升了训练和推理效率。

STARFlow-V 的功能覆盖广泛,不仅支持从文本直接生成视频,还能以一张静态图像作为起始帧进行延展生成,并具备基础的视频编辑能力。面对超出预设长度的视频请求,模型采用滑动窗口策略:先生成一段视频后保留末尾若干帧作为上下文线索,再以此为基础继续生成后续内容。不过,目前公开的演示样本在时间维度上的动态多样性仍显有限。

针对逐帧生成容易引发的错误累积难题,STARFlow-V 引入了双分支架构:一个模块负责跨帧时序建模,确保动作连贯;另一个则聚焦于单帧画质优化,提升细节表现力。为了增强训练过程的鲁棒性,苹果还在输入中注入了可控噪声,虽然这可能导致画面略带颗粒感,但配套部署的“因果去噪网络”可在不破坏运动一致性的前提下有效清除冗余噪声。

在数据层面,该模型依托7000万组文本-视频配对数据进行训练,并辅以400万组高质量文本-图像样本。借助大型语言模型,每条原始视频描述被扩展为九种语义相近但表述各异的版本,从而丰富训练语料的多样性。经过数周高强度训练,STARFlow-V 的参数规模从最初的30亿迅速扩展至70亿,同时逐步提升输出分辨率与视频时长上限。

尽管在 VBench 基准测试中,STARFlow-V 得分为79.7,略低于部分顶尖扩散模型,但其在自回归类模型中已属佼佼者,尤其在空间逻辑推理和人物动作自然度方面展现出明显优势。展望未来,苹果表示将持续优化模型的计算效率,并加大对物理规律准确性的训练投入,以推动视频生成技术向更真实、更高效的方向演进。

划重点:

🌟 STARFlow-V 使用归一化流技术,提升长视频片段生成的稳定性和效率。

⚙️ 该模型支持多种视频生成和编辑任务,展现出强大的灵活性。

🚀 苹果计划在未来优化计算速度和物理准确性,持续推进视频生成技术的发展。

本文来自网络,不代表678CHAT立场,转载请注明出处:https://www.678chat.com/ai/21901.html

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注

返回顶部