678CHAT AI资讯 通义万相国际版上线了!新功能能用音频生成视频,还能靠指令修图

通义万相国际版上线了!新功能能用音频生成视频,还能靠指令修图

“还在为一段口播视频反复调整口型和配音对不上而头疼?现在只需要录一段音频,剩下的交给通义万相Wan2.5。”这是近期不少内容创作者在体验AI视频生成新功能后发出的感叹。原本需要数小时剪辑、调校的流程,如今在几秒内便可完成,效率的跃升让整个创作圈为之震动。

通义万相国际版上线了!新功能能用音频生成视频,还能靠指令修图插图

就在2025年9月26日至28日短短两天内,通义万相国际版连续发布重磅更新,正式推出原生音频驱动视频生成精准图像编辑两大核心能力。这一轮技术迭代,直击AI内容生产中长期存在的“音画不同步”“编辑不精细”等顽疾,标志着AI从“能生成”迈向“生成得准、生成得真”的新阶段。

此次升级最引人注目的,是音频首次成为视频生成的“主控信号”。在Wan2.5中,音频不再是后期叠加的附属元素,而是直接作为驱动视频内容的核心输入。系统支持“音频+文本”“音频+图片”两种创新组合模式,让用户能够以极低门槛实现高度可控的视频创作。

通义万相国际版上线了!新功能能用音频生成视频,还能靠指令修图插图1

举个例子,如果你希望制作一段沉浸式咖啡冲泡的ASMR视频,只需上传一张手冲咖啡的静态图,再配上热水注入、咖啡滴滤的音频,并添加一句文本提示“慢动作特写,蒸汽升腾,背景柔和虚化”,系统便能自动生成一段画面流畅、音画同步的10秒高清视频。水滴节奏与画面动态严丝合缝,甚至连咖啡液流动的细微声响都精准匹配,仿佛由专业团队精心剪辑而成。

这种高度协调的背后,是Wan2.5采用的原生多模态联合训练架构。文本、图像、音频三大模态在同一个模型框架下协同学习,彻底告别了以往各模块“各自为政”导致的逻辑错乱与感官割裂。模型不仅能理解语言语义,更能捕捉声音的节奏、情绪与画面的运动规律,实现真正意义上的多感官融合。

在实用性层面,Wan2.5也实现了关键突破。生成视频时长从过去的5秒延长至10秒,分辨率提升至1080P,帧率达到24帧/秒,完全满足主流短视频平台的内容发布标准。无论是产品功能演示、情景短剧,还是品牌广告片段,都能在10秒内完成高质量输出。

更令人惊叹的是其对复杂场景的理解能力。当输入“第一人称视角,骑行穿越秋日森林,落叶飘落,配风声+车轮碾过枯叶的沙沙声”时,生成的视频不仅准确还原了运动轨迹与光影变化,连音效的层次感和空间感都极为真实。这种对物理规律与视听逻辑的深度建模,远超简单拼接素材的“伪AI”方案,真正逼近专业影视制作水准。

本文来自网络,不代表678CHAT立场,转载请注明出处:https://www.678chat.com/ai/20659.html

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注

返回顶部