12月2日,通义千问App正式集成阿里最新发布的万相2.5模型,标志着其视频生成能力迈入全新阶段。此次升级不仅显著优化了人物动作的自然度与肢体协调性,更使其成为全球首款在移动端实现音视频同步输出的AI智能助手。

万相2.5作为阿里云推出的多模态大模型,在业界处于领先地位。该模型不仅能理解文本、图像、音频和视频等多种输入形式,还能高效生成跨模态内容。尤其在音画同步方面,万相2.5展现出极强的技术优势。据权威AI评测平台LMArena最新榜单显示,万相在图生视频任务中位列全球第三,稳居中国第一,充分彰显其在生成式AI领域的硬核实力。
如今,用户只需在千问App中上传一张静态图片,并配以简短文字描述,即可一键生成一段1080P高清、时长最高达10秒的唱跳视频。无论是真人肖像、卡通角色、历史文物,还是宠物照片,系统均能精准还原口型、匹配歌词,并赋予角色流畅自然的舞蹈动作。整个过程无需选择模板或进行复杂设置,真正实现“所想即所得”的创作体验。

回溯至去年初,阿里推出的“照片跳舞”功能曾引发全网热潮,兵马俑扭动身姿、萌娃随节奏摇摆、猫咪化身舞者等创意视频迅速刷屏社交平台。而随着万相2.5的接入,千问App不仅延续了这一趣味基因,更将创作自由度推向新高——用户可自由上传任意图像,并通过自然语言指令定制视频内容。例如,输入“小猫一边唱歌一边跳舞”,系统便能自动生成一段音画高度同步、动作协调的动态视频,让静态图像瞬间“活”起来。
这一能力上线后,再度点燃用户的创作热情。社交平台上涌现出大量富有想象力的新玩法:有用户先利用AI将两张人像融合成一幅“文艺复兴风格”的合照,再输入“画面中的人物一边合唱一边跳华尔兹,镜头缓缓推进”等指令,千问App随即生成一段兼具艺术感与动感的群舞视频,且人物形象始终保持高度一致,动作连贯不突兀。这种低门槛、高自由度的创作方式,正推动AI视频生成从技术演示走向大众日常表达。

值得注意的是,千问App自开启公测以来,仅用一周时间下载量便突破1000万,超越ChatGPT、Sora及DeepSeek等国际知名AI应用,创下AI产品史上最快增长纪录。这一现象不仅反映出用户对高质量AIGC工具的强烈需求,也印证了阿里在生成式AI落地场景上的领先布局与产品执行力。
