678CHAT AI资讯 阿里推出Qwen3-Omni-Flash:能边说边回,支持119种语言实时聊天

阿里推出Qwen3-Omni-Flash:能边说边回,支持119种语言实时聊天

AIbase 12月9日讯 阿里巴巴Qwen团队今日正式推出其最新一代全模态大模型——Qwen3-Omni-Flash-2025-12-01。该模型不仅支持文本、图像、音频与视频的混合输入,更实现了实时流式响应机制,可同步输出高质量文字内容与高度拟真的自然语音,官方表示其语音合成的自然度已几近真人水平。

阿里推出Qwen3-Omni-Flash:能边说边回,支持119种语言实时聊天插图

技术亮点:全模态实时流式交互架构

Qwen3-Omni-Flash基于全新设计的实时流式架构,能够无缝处理多源异构输入,并在毫秒级延迟内完成跨模态理解与生成。模型支持高达119种语言的文本交互能力,覆盖19种语音识别语种和10种高保真语音合成语种,显著提升了全球化应用场景下的响应准确性与流畅度。

人格化定制:System Prompt全面开放

此次更新的一大突破在于全面开放System Prompt自定义权限。用户不仅可以设定如“甜妹”“御姐”等多样化人设风格,还能精细调节回复的口语化程度、语气节奏乃至回答长度。更值得一提的是,模型可根据上下文自动调整语速、停顿及韵律,实现真正意义上的“有性格”的AI对话体验。

性能跃升:多项基准测试刷新纪录

阿里推出Qwen3-Omni-Flash:能边说边回,支持119种语言实时聊天插图1

据官方披露的评测数据,Qwen3-Omni-Flash在多个关键指标上均取得显著进步:逻辑推理任务ZebraLogic得分提升5.6分,代码生成能力在LiveCodeBench-v6中提升9.3分,多学科视觉问答MMM-U测试则提升4.7分。这些成果印证了其在复杂多模态任务中的综合理解与推理实力。

商业化落地:API即刻可用,价格亲民

目前,Qwen3-Omni-Flash已通过API正式对外开放,定价策略极具竞争力——输入仅需1元/百万tokens,输出为3元/百万tokens。同时,模型已在Qwen Chat平台上线集成Demo,用户可直接上传最长30秒的视频,系统将实时生成匹配画面的口播内容,极大简化了内容创作流程。

行业影响:全模态迈入“人格化”新纪元

当业界仍在聚焦于多模态模型“能看懂多少图”时,阿里已率先将“实时流+人格化”能力封装为标准化API。这一举措对直播电商、短视频制作、虚拟会议等高度依赖语音表达与风格调性的场景而言,意味着传统配音与后期口播的人力成本有望被压缩至近乎为零。

未来路线图:

据Qwen团队透露,2025年第一季度将推出70B参数的轻量版本,可在单张A100显卡上运行实时流服务;第二季度计划开放“10秒语音克隆”接口;第三季度则将上线“视频驱动头像”Beta功能。AIbase将持续关注并追踪上述语音克隆与数字人像相关功能的开放进展。

本文来自网络,不代表678CHAT立场,转载请注明出处:https://www.678chat.com/ai/22033.html

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注

返回顶部