678CHAT AI资讯 一开口就是角色!阿里Qwen3-TTS来了:49种声音+10种语言9大方言,效果吊打主流商用模型

一开口就是角色!阿里Qwen3-TTS来了:49种声音+10种语言9大方言,效果吊打主流商用模型

阿里云正式对外发布Qwen3系列的全新语音合成模型Qwen3-TTS,标志着其在多角色、跨语言语音生成领域迈出关键一步。该模型以“零样本学习”为核心能力,无需额外训练即可实现音色切换与语言转换,目前已全面上线阿里云平台,并向开发者开放每月百万字符免费调用额度。

一开口就是角色!阿里Qwen3-TTS来了:49种声音+10种语言9大方言,效果吊打主流商用模型插图

49种预设音色覆盖多元场景

从年轻主播到地方口音人物,Qwen3-TTS提供了多达49种高品质内置音色,涵盖教育讲解、客服应答、直播带货、影视旁白等多种使用情境;同时支持包括英语、日语、法语在内的10种国际语言及粤语、四川话、东北话等9大方言体系,用户可在同一文本基础上自由切换发音风格,真正实现“一键换声”。

智能韵律控制,拟人化表达再升级

依托自回归声学建模与深度韵律预测技术,新模型能精准识别标点符号和情感标签,自动调整语调起伏、插入自然停顿,在48kHz高采样率下主观评分(MOS)达到4.53,远超行业平均水平的4.1,语音流畅度与情感表现力显著增强。

词错误率刷新开源纪录

在MLS与Common Voice两大权威多语言语音测试集上,Qwen3-TTS展现出强劲性能:英文词错误率(WER)低至2.8%,中文仅为1.9%,相较Azure TTS分别下降18%和24%,不仅超越主流商用系统,更创下当前开源模型的最佳表现。

赋能教育,方言助力个性化学习

为推动实际场景落地,阿里云同步推出“一键朗读”浏览器插件,教师仅需上传PPT文件,系统即可自动生成带有指定方言口音的讲解音频。该项目已在上海120所中小学展开试点,帮助学生通过“乡音”记忆词汇,提升语言学习沉浸感与亲和力。

灵活定价,即开即用

- 免费额度:每月100万字符,全部49种音色无限制使用

- 进阶服务:0.8元/万字符,支持SSML标记语言与实时流式输出

- 接入路径:登录console.aliyun.com,进入人工智能板块下的语音合成服务,选择Qwen3-TTS即可快速调用

未来布局曝光:音色克隆与超高清音频将至

据官方透露,2025年第一季度将上线“10秒音色克隆”功能,用户上传短段录音即可复刻专属声音形象;同时计划推出80kHz超采样版本,进一步提升音质细节,瞄准有声书、播客制作及虚拟偶像配音等高要求内容创作市场。

行业趋势洞察

当前TTS技术正经历从“听得清”向“有个性”的跃迁。Qwen3-TTS凭借开源策略与极具竞争力的定价,正在冲击AWS、Azure等传统商用语音服务体系。其“零样本”特性尤其适用于直播互动、智能客服与个性化教育等高频场景。随着私人音色克隆与超高保真音频版本的陆续释放,一个“人人皆可拥有专属旁白”的AI语音新时代正在加速到来。AIbase将持续关注其接口开放进展及典型商业应用案例演化。

体验入口:https://modelscope.cn/studios/Qwen/Qwen3-TTS-Demo

本文来自网络,不代表678CHAT立场,转载请注明出处:https://www.678chat.com/ai/21914.html

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注

返回顶部