12月10日,面壁智能正式对外宣布其语音生成基座模型VoxCPM迎来重要版本迭代——VoxCPM 1.5全面上线。此次更新不仅在核心技术层面实现显著突破,更进一步强化了对开发者的支持能力,标志着该系列模型在实用性与性能表现上迈入新阶段。

作为一款参数规模为0.5B的轻量级语音生成模型,VoxCPM自今年9月首次亮相以来,便以其高效的语音合成能力和开放的架构设计受到广泛关注。此次推出的1.5版本,在保持原有优势的基础上,围绕音质、效率和可定制性三大维度进行了系统性优化。
本次升级中最引人注目的改进之一是音频克隆能力的大幅提升。新版模型搭载的AudioVAE模块已将采样率从原先的16kHz跃升至44.1kHz,这一关键指标的提升使得系统能够捕捉并还原更高频段的声音细节,从而实现更加逼真、细腻的语音克隆效果,尤其适用于对音色还原度要求较高的应用场景。
在生成效率方面,VoxCPM 1.5展现出惊人的性能进步。尽管模型参数量有所增加,但通过算法结构优化,现仅需6.25个token即可生成一秒钟的高质量音频,相较前代速度翻倍。这意味着用户在享受更高音质输出的同时,还能获得更快的响应体验,有效降低了推理成本,提升了实际部署效率。

面向开发者生态的建设,此次更新也带来了实质性利好。官方首次提供了完整的LoRA微调及全量参数微调脚本,极大降低了个性化训练门槛。开发者可根据具体业务需求,灵活调整模型行为,实现声音风格、语调特征等维度的深度定制,拓展出更多元的应用可能。
此外,团队还针对长文本语音合成中的常见问题进行了专项优化,显著减少了音频伪影现象的发生,使整体听感更为连贯自然,尤其在处理复杂句式或较长语段时表现出更强的稳定性。
目前,VoxCPM 1.5已同步在GitHub与Hugging Face平台开源,向全球开发者免费开放使用。
-
Huggingface:https://huggingface.co/openbmb/VoxCPM1.5
-
Github:https://github.com/OpenBMB/VoxCPM
