阿里通义发布Fun-ASR语音大模型，方言识别领先，准确率最高提升20%

阿里通义近日正式发布新一代端到端语音识别大模型——Fun-ASR。该模型在上下文理解与高精度转写方面实现显著突破，尤其在家装、保险等垂直领域表现突出。实际测试显示，其语音识别准确率提升超过15%，其中保险行业提升幅度高达18%，在家装、畜牧等场景中性能增幅也稳定处于15%–20%之间，展现出优异的行业适配能力。

Fun-ASR 是一款由大语言模型驱动的语音识别系统，融合了阿里自研语音处理算法与 Qwen3 大模型的监督微调技术。通过先进的模型架构与多模态对齐策略，它在继承强大语言理解能力的基础上，进一步整合了 RAG（检索增强生成）技术框架。值得一提的是，该模型支持超过1000个自定义热词导入，可智能匹配音频中的专业术语、历史对话与上下文语境，从而显著提升行业关键词识别准确率。

面对语音识别中常见的噪声干扰、语种混杂和生成偏差等问题，研发团队创新引入强化学习（RL）机制，借助动态策略调整持续优化识别路径。这不仅有效降低误识别率，还大幅增强系统的稳定性与输出可靠性。值得注意的是，Fun-ASR 在四川话、粤语、闽南语等方言识别方面表现优于同类产品，同时具备出色的远场拾音与近场降噪能力，可广泛适用于会议室、办公区、商场及户外等多种复杂声学环境。

该模型依托超过一亿小时的海量音频语料，深度融合互联网、科技、畜牧、汽车等十余个行业的术语体系与语境特征，展现出卓越的场景化识别能力。

例如在畜牧业中，Fun-ASR 能够从牲畜叫声与环境噪音中准确识别并解析人工指令，实现高效人机交互。这一能力使其在专业化场景中具备显著优势。

阿里通义技术团队强调，Fun-ASR 的推出标志着语音识别技术正从通用型加速迈向专业化与场景化。随着在更多行业落地，其动态热词更新与多模态交互能力，将持续推动语音交互效率的提升，为智能服务注入更强技术动能。

相关文章

想玩转AI社交，腾讯元宝得大胆点

小心裸奔的开源AI！没人管可能被黑客当跳板

ChatGPT Agent 用户跑了七成五，定位不清成最大硬伤

清华推出法律大模型LegalOne-R1，智能司法要变天了！

Sora下载量暴跌45%！OpenAI的领先优势还稳吗？

小红书悄悄试水语音问一问：真人经验+AI，搜得更懂你

发表回复 取消回复

发表回复取消回复