阿里推出Qwen3-Omni-Flash：能边说边回，支持119种语言实时聊天

AIbase 12月9日讯阿里巴巴Qwen团队今日正式推出其最新一代全模态大模型——Qwen3-Omni-Flash-2025-12-01。该模型不仅支持文本、图像、音频与视频的混合输入，更实现了实时流式响应机制，可同步输出高质量文字内容与高度拟真的自然语音，官方表示其语音合成的自然度已几近真人水平。

技术亮点：全模态实时流式交互架构

Qwen3-Omni-Flash基于全新设计的实时流式架构，能够无缝处理多源异构输入，并在毫秒级延迟内完成跨模态理解与生成。模型支持高达119种语言的文本交互能力，覆盖19种语音识别语种和10种高保真语音合成语种，显著提升了全球化应用场景下的响应准确性与流畅度。

人格化定制：System Prompt全面开放

此次更新的一大突破在于全面开放System Prompt自定义权限。用户不仅可以设定如“甜妹”“御姐”等多样化人设风格，还能精细调节回复的口语化程度、语气节奏乃至回答长度。更值得一提的是，模型可根据上下文自动调整语速、停顿及韵律，实现真正意义上的“有性格”的AI对话体验。

性能跃升：多项基准测试刷新纪录

据官方披露的评测数据，Qwen3-Omni-Flash在多个关键指标上均取得显著进步：逻辑推理任务ZebraLogic得分提升5.6分，代码生成能力在LiveCodeBench-v6中提升9.3分，多学科视觉问答MMM-U测试则提升4.7分。这些成果印证了其在复杂多模态任务中的综合理解与推理实力。

商业化落地：API即刻可用，价格亲民

目前，Qwen3-Omni-Flash已通过API正式对外开放，定价策略极具竞争力——输入仅需1元/百万tokens，输出为3元/百万tokens。同时，模型已在Qwen Chat平台上线集成Demo，用户可直接上传最长30秒的视频，系统将实时生成匹配画面的口播内容，极大简化了内容创作流程。

行业影响：全模态迈入“人格化”新纪元

当业界仍在聚焦于多模态模型“能看懂多少图”时，阿里已率先将“实时流+人格化”能力封装为标准化API。这一举措对直播电商、短视频制作、虚拟会议等高度依赖语音表达与风格调性的场景而言，意味着传统配音与后期口播的人力成本有望被压缩至近乎为零。

未来路线图：

据Qwen团队透露，2025年第一季度将推出70B参数的轻量版本，可在单张A100显卡上运行实时流服务；第二季度计划开放“10秒语音克隆”接口；第三季度则将上线“视频驱动头像”Beta功能。AIbase将持续关注并追踪上述语音克隆与数字人像相关功能的开放进展。

相关文章

想玩转AI社交，腾讯元宝得大胆点

小心裸奔的开源AI！没人管可能被黑客当跳板

ChatGPT Agent 用户跑了七成五，定位不清成最大硬伤

清华推出法律大模型LegalOne-R1，智能司法要变天了！

Sora下载量暴跌45%！OpenAI的领先优势还稳吗？

小红书悄悄试水语音问一问：真人经验+AI，搜得更懂你

发表回复 取消回复

发表回复取消回复