通义万相国际版上线了！新功能能用音频生成视频，还能靠指令修图

“还在为一段口播视频反复调整口型和配音对不上而头疼？现在只需要录一段音频，剩下的交给通义万相Wan2.5。”这是近期不少内容创作者在体验AI视频生成新功能后发出的感叹。原本需要数小时剪辑、调校的流程，如今在几秒内便可完成，效率的跃升让整个创作圈为之震动。

就在2025年9月26日至28日短短两天内，通义万相国际版连续发布重磅更新，正式推出原生音频驱动视频生成与精准图像编辑两大核心能力。这一轮技术迭代，直击AI内容生产中长期存在的“音画不同步”“编辑不精细”等顽疾，标志着AI从“能生成”迈向“生成得准、生成得真”的新阶段。

此次升级最引人注目的，是音频首次成为视频生成的“主控信号”。在Wan2.5中，音频不再是后期叠加的附属元素，而是直接作为驱动视频内容的核心输入。系统支持“音频+文本”与“音频+图片”两种创新组合模式，让用户能够以极低门槛实现高度可控的视频创作。

举个例子，如果你希望制作一段沉浸式咖啡冲泡的ASMR视频，只需上传一张手冲咖啡的静态图，再配上热水注入、咖啡滴滤的音频，并添加一句文本提示“慢动作特写，蒸汽升腾，背景柔和虚化”，系统便能自动生成一段画面流畅、音画同步的10秒高清视频。水滴节奏与画面动态严丝合缝，甚至连咖啡液流动的细微声响都精准匹配，仿佛由专业团队精心剪辑而成。

这种高度协调的背后，是Wan2.5采用的原生多模态联合训练架构。文本、图像、音频三大模态在同一个模型框架下协同学习，彻底告别了以往各模块“各自为政”导致的逻辑错乱与感官割裂。模型不仅能理解语言语义，更能捕捉声音的节奏、情绪与画面的运动规律，实现真正意义上的多感官融合。

在实用性层面，Wan2.5也实现了关键突破。生成视频时长从过去的5秒延长至10秒，分辨率提升至1080P，帧率达到24帧/秒，完全满足主流短视频平台的内容发布标准。无论是产品功能演示、情景短剧，还是品牌广告片段，都能在10秒内完成高质量输出。

更令人惊叹的是其对复杂场景的理解能力。当输入“第一人称视角，骑行穿越秋日森林，落叶飘落，配风声+车轮碾过枯叶的沙沙声”时，生成的视频不仅准确还原了运动轨迹与光影变化，连音效的层次感和空间感都极为真实。这种对物理规律与视听逻辑的深度建模，远超简单拼接素材的“伪AI”方案，真正逼近专业影视制作水准。

相关文章

想玩转AI社交，腾讯元宝得大胆点

小心裸奔的开源AI！没人管可能被黑客当跳板

ChatGPT Agent 用户跑了七成五，定位不清成最大硬伤

清华推出法律大模型LegalOne-R1，智能司法要变天了！

Sora下载量暴跌45%！OpenAI的领先优势还稳吗？

小红书悄悄试水语音问一问：真人经验+AI，搜得更懂你

发表回复 取消回复

发表回复取消回复