阿里通义近日正式发布新一代端到端语音识别大模型——Fun-ASR。该模型在上下文理解与高精度转写方面实现显著突破,尤其在家装、保险等垂直领域表现突出。实际测试显示,其语音识别准确率提升超过15%,其中保险行业提升幅度高达18%,在家装、畜牧等场景中性能增幅也稳定处于15%–20%之间,展现出优异的行业适配能力。

Fun-ASR 是一款由大语言模型驱动的语音识别系统,融合了阿里自研语音处理算法与 Qwen3 大模型的监督微调技术。通过先进的模型架构与多模态对齐策略,它在继承强大语言理解能力的基础上,进一步整合了 RAG(检索增强生成)技术框架。值得一提的是,该模型支持超过1000个自定义热词导入,可智能匹配音频中的专业术语、历史对话与上下文语境,从而显著提升行业关键词识别准确率。
面对语音识别中常见的噪声干扰、语种混杂和生成偏差等问题,研发团队创新引入强化学习(RL)机制,借助动态策略调整持续优化识别路径。这不仅有效降低误识别率,还大幅增强系统的稳定性与输出可靠性。值得注意的是,Fun-ASR 在四川话、粤语、闽南语等方言识别方面表现优于同类产品,同时具备出色的远场拾音与近场降噪能力,可广泛适用于会议室、办公区、商场及户外等多种复杂声学环境。
该模型依托超过一亿小时的海量音频语料,深度融合互联网、科技、畜牧、汽车等十余个行业的术语体系与语境特征,展现出卓越的场景化识别能力。
例如在畜牧业中,Fun-ASR 能够从牲畜叫声与环境噪音中准确识别并解析人工指令,实现高效人机交互。这一能力使其在专业化场景中具备显著优势。
阿里通义技术团队强调,Fun-ASR 的推出标志着语音识别技术正从通用型加速迈向专业化与场景化。随着在更多行业落地,其动态热词更新与多模态交互能力,将持续推动语音交互效率的提升,为智能服务注入更强技术动能。
