678CHAT AI资讯 阿里通义Qwen3-TTS上新两款AI语音模型:声音不仅能模仿,还能按你想要的定制

阿里通义Qwen3-TTS上新两款AI语音模型:声音不仅能模仿,还能按你想要的定制

12月24日,阿里通义实验室正式对外发布Qwen3-TTS语音合成技术家族的最新成员——音色创造模型Qwen3-TTS-VD-Flash与音色克隆模型Qwen3-TTS-VC-Flash。此次更新标志着通义在语音生成领域实现了从“能说”到“说得像、说得准、说得有情感”的关键跨越,进一步夯实了其在多模态AI领域的领先地位。

阿里通义Qwen3-TTS上新两款AI语音模型:声音不仅能模仿,还能按你想要的定制插图

其中,Qwen3-TTS-VD-Flash主打音色的“自由设计”能力。用户无需依赖预设音库或真实人声样本,仅需通过自然语言指令描述理想中的声音特质,例如“一个低沉稳重、带有轻微沙哑感的中年男性旁白音色,语速适中,富有纪录片解说氛围”,系统即可精准生成符合设定的拟人化语音。这种基于语义理解的端到端可控合成方式,打破了传统TTS只能在固定音色池中选择或依赖长时音频克隆的局限,真正实现“所想即所说”。在权威评测集InstructTTS-Eval上的测试显示,该模型在指令遵循性、情感表达与角色还原度等多个维度均显著领先于GPT-4o-mini-tts和Mimo-audio-7b-instruct,并在角色扮演任务中超越Gemini-2.5-pro-preview-tts的表现。

阿里通义Qwen3-TTS上新两款AI语音模型:声音不仅能模仿,还能按你想要的定制插图1

而另一款新模型Qwen3-TTS-VC-Flash则聚焦于高效精准的音色复刻。仅需3秒原始音频输入,即可完成对目标音色的高质量克隆,并支持在此基础上生成涵盖中文、英文、德语、法语、西班牙语、日语、韩语、俄语、葡萄牙语及意大利语在内的十种主流语言语音输出。这一能力不仅极大降低了个性化语音定制的门槛,也为跨语言内容创作、虚拟偶像配音等场景提供了强大工具。在MiniMax TTS多语言测试集上的实测数据表明,Qwen3-TTS-VC-Flash在各语种的语音清晰度与内容稳定性方面全面优于MiniMax、ElevenLabs以及GPT-4o-Audio-Preview,平均词错误率(WER)位列榜首,展现出卓越的语言适应性与抗干扰能力。

两款模型共同继承了Qwen系列强大的文本解析基因,具备出色的鲁棒性表现。无论是含有缩写、符号混排、口语化表达还是结构复杂的非规范文本,系统均能准确识别并转化为自然流畅的语音输出。同时,模型可根据上下文语义智能调整语调、停顿与节奏,使最终语音不仅“听得清”,更“有情绪”、“有温度”。

目前,相关API接口已开放接入,开发者可通过官方文档获取详细技术参数与集成指南,探索更多语音交互与内容生成的可能性。

本文来自网络,不代表678CHAT立场,转载请注明出处:https://www.678chat.com/ai/22346.html

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注

返回顶部