阿里通义Qwen3-TTS上新两款AI语音模型：声音不仅能模仿，还能按你想要的定制

12月24日，阿里通义实验室正式对外发布Qwen3-TTS语音合成技术家族的最新成员——音色创造模型Qwen3-TTS-VD-Flash与音色克隆模型Qwen3-TTS-VC-Flash。此次更新标志着通义在语音生成领域实现了从“能说”到“说得像、说得准、说得有情感”的关键跨越，进一步夯实了其在多模态AI领域的领先地位。

其中，Qwen3-TTS-VD-Flash主打音色的“自由设计”能力。用户无需依赖预设音库或真实人声样本，仅需通过自然语言指令描述理想中的声音特质，例如“一个低沉稳重、带有轻微沙哑感的中年男性旁白音色，语速适中，富有纪录片解说氛围”，系统即可精准生成符合设定的拟人化语音。这种基于语义理解的端到端可控合成方式，打破了传统TTS只能在固定音色池中选择或依赖长时音频克隆的局限，真正实现“所想即所说”。在权威评测集InstructTTS-Eval上的测试显示，该模型在指令遵循性、情感表达与角色还原度等多个维度均显著领先于GPT-4o-mini-tts和Mimo-audio-7b-instruct，并在角色扮演任务中超越Gemini-2.5-pro-preview-tts的表现。

而另一款新模型Qwen3-TTS-VC-Flash则聚焦于高效精准的音色复刻。仅需3秒原始音频输入，即可完成对目标音色的高质量克隆，并支持在此基础上生成涵盖中文、英文、德语、法语、西班牙语、日语、韩语、俄语、葡萄牙语及意大利语在内的十种主流语言语音输出。这一能力不仅极大降低了个性化语音定制的门槛，也为跨语言内容创作、虚拟偶像配音等场景提供了强大工具。在MiniMax TTS多语言测试集上的实测数据表明，Qwen3-TTS-VC-Flash在各语种的语音清晰度与内容稳定性方面全面优于MiniMax、ElevenLabs以及GPT-4o-Audio-Preview，平均词错误率（WER）位列榜首，展现出卓越的语言适应性与抗干扰能力。

两款模型共同继承了Qwen系列强大的文本解析基因，具备出色的鲁棒性表现。无论是含有缩写、符号混排、口语化表达还是结构复杂的非规范文本，系统均能准确识别并转化为自然流畅的语音输出。同时，模型可根据上下文语义智能调整语调、停顿与节奏，使最终语音不仅“听得清”，更“有情绪”、“有温度”。

目前，相关API接口已开放接入，开发者可通过官方文档获取详细技术参数与集成指南，探索更多语音交互与内容生成的可能性。

相关文章

想玩转AI社交，腾讯元宝得大胆点

小心裸奔的开源AI！没人管可能被黑客当跳板

ChatGPT Agent 用户跑了七成五，定位不清成最大硬伤

清华推出法律大模型LegalOne-R1，智能司法要变天了！

Sora下载量暴跌45%！OpenAI的领先优势还稳吗？

小红书悄悄试水语音问一问：真人经验+AI，搜得更懂你

发表回复 取消回复

发表回复取消回复