678CHAT AI资讯 从Sora到可灵,视频AI还没迎来它的GPT时刻

从Sora到可灵,视频AI还没迎来它的GPT时刻

文 / 林骁

从Sora到可灵,视频AI还没迎来它的GPT时刻插图

来源 / 数智前沿

视频生成大模型的狂飙仍在继续,但喧嚣之下,裂痕已现。

近日,快手旗下可灵AI宣布其核心产品可灵O1正式上线“主体库”与“对比模板”功能,意在提升AI视频创作效率与视觉呈现效果。此举被视为国内厂商在激烈竞争中强化工具链、贴近创作者需求的关键一步。

然而,在太平洋另一端,曾被寄予厚望的OpenAI Sora 2却正遭遇现实重击。据a16z合伙人披露的数据,Sora App首日用户留存率仅为10%,30天后更是跌至1%;而TikTok同期数据分别为50%与32%。巨大的落差,让年初那场关于“AI将重塑短视频生态”的狂欢迅速冷却。

回溯到2024年9月,Sora 2携独立App高调登场时,科技圈一度沸腾。有声音断言:“AI视频的iPhone时刻来了。”OpenAI甚至宣称,这可能是视频领域的GPT-3.5转折点。

但步入2026年末,理想与现实之间的鸿沟愈发清晰。资本开始退潮,产业界亦趋于理性:所谓“视频GPT时刻”,并未如约降临。高昂的推理成本、模糊的商业路径、以及技术本身的不稳定性,正构筑起一堵名为“叹息之墙”的行业壁垒。

无论是谷歌的Veo、OpenAI的Sora,还是国内的可灵、即梦,此刻都站在同一条十字路口上——技术炫目,却难变现。

01 模型竞速:从惊艳到内卷

2024年,因Sora以60秒长视频、多视角切换和逼真物理模拟震撼业界,被冠以“视频生成元年”。随后,Runway推出Gen-3 Alpha,Luma发布Dream Machine,谷歌在I/O大会亮出Veo;国内则迎来字节跳动的即梦、快手的可灵、生数科技的Vidu等密集入局。

这场中美科技巨头主导的军备竞赛,迅速演变为参数规模、生成时长与画质精度的比拼。但很快,技术路径趋同——主流模型几乎全部采用DiT(Diffusion Transformer)架构,使得竞争焦点转向数据质量、上下文理解与物理规律建模能力。

可灵依托快手海量短视频数据,在运动连贯性与逻辑一致性上表现突出;即梦则凭借抖音生态,在镜头语言与审美风格上更贴近C端用户。然而,即便如此,它们仍难逃一个共性困境:演示视频与实际体验严重脱节。

普通用户使用Sora 2时常遭遇人物肢体扭曲、物体凭空消失、水流逆向等“抽卡失败”场景。这种“百里挑一”的Demo策略,虽能制造话题,却无法支撑长期留存。当前模型虽已跨过“不可用”门槛,但距离ChatGPT式的稳定通用,仍有天壤之别。

更关键的是,行业过度聚焦于分辨率与时长,却忽视了创作者最核心的需求——可控性。

02 算力黑洞:每帧都是真金白银

从Sora到可灵,视频AI还没迎来它的GPT时刻插图1

如果说技术短板尚可随时间弥合,那么算力成本则是悬顶之剑。

视频生成是AI所有模态中算力消耗最恐怖的领域。增加“时间”维度后,数据量呈指数级增长,而为保证画面连贯与物理合理,模型需在极短时间内完成海量推理。

粗略估算,生成1秒高清视频所耗GPU资源,足以产出数万字文本或数十张图像。Sora采用视频切片策略以压缩计算量,但推理成本依然高得令人窒息。

对OpenAI、谷歌等巨头而言,尚可依靠云基础设施内部补贴;但对Runway、Luma及众多初创公司,每一帧输出都是燃烧现金。更严峻的是,视频模型尚未触及“缩放定律”的收益拐点——参数越大,边际效益越低,成本却指数攀升。

高质量训练数据稀缺且版权复杂,互联网上的海量视频多为低质压缩内容,清洗标注成本远超文本。加之用户需反复生成才能获得满意结果,大量“废片”成为沉没成本。

在硬件未出现革命性突破前,算力瓶颈将牢牢扼住视频AI普及的咽喉。

03 商业困局:叫好难叫座

归根结底,一切终将回归商业模式。

ChatGPT之所以成功,因其直击信息检索、编程、文案等明确生产力场景,交付确定。而视频AI目前定位模糊:C端用户视其为猎奇玩具,新鲜感一过便弃用;B端专业市场则苦于“不可控”——导演无法精确指定光影、表情或轨迹,AI输出仍是概率游戏。

好莱坞名导泰勒·佩里虽因Sora暂停影视基地建设,但更多是战略观望,而非实际替代。当前AI视频仅能充当动态分镜或灵感参考,难以嵌入正式制作流程。

变现路径同样狭窄。主流SaaS订阅制(按点数或时长收费)在高成本下难盈利,提价又会吓退用户。国内厂商如可灵、即梦,则试图将AI能力融入自有短视频生态,通过降低创作门槛激活内容供给,最终靠广告与电商变现。

但风险在于,若低质AI视频泛滥,反而可能稀释平台内容价值,引发用户倦怠。

如今,视频AI正从Gartner曲线的“期望膨胀期”滑向“泡沫破裂谷底”。尽管巨头仍在全力押注,但要真正迎来“GPT时刻”——即成为低门槛、高可用、全行业通用的基础设施——仍需算法突破、算力降本与杀手级场景三者共振。

在此之前,这场竞赛注定是一场烧钱马拉松,无人能轻易言胜。

从Sora到可灵,视频AI还没迎来它的GPT时刻插图2

*题图由AI生成

本文来自网络,不代表678CHAT立场,转载请注明出处:https://www.678chat.com/ai/22047.html

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注

返回顶部