面壁智能开源新语音AI：音质更高，克隆更快，效率直接翻倍

12月10日，面壁智能正式对外宣布其语音生成基座模型VoxCPM迎来重要版本迭代——VoxCPM 1.5全面上线。此次更新不仅在核心技术层面实现显著突破，更进一步强化了对开发者的支持能力，标志着该系列模型在实用性与性能表现上迈入新阶段。

作为一款参数规模为0.5B的轻量级语音生成模型，VoxCPM自今年9月首次亮相以来，便以其高效的语音合成能力和开放的架构设计受到广泛关注。此次推出的1.5版本，在保持原有优势的基础上，围绕音质、效率和可定制性三大维度进行了系统性优化。

本次升级中最引人注目的改进之一是音频克隆能力的大幅提升。新版模型搭载的AudioVAE模块已将采样率从原先的16kHz跃升至44.1kHz，这一关键指标的提升使得系统能够捕捉并还原更高频段的声音细节，从而实现更加逼真、细腻的语音克隆效果，尤其适用于对音色还原度要求较高的应用场景。

在生成效率方面，VoxCPM 1.5展现出惊人的性能进步。尽管模型参数量有所增加，但通过算法结构优化，现仅需6.25个token即可生成一秒钟的高质量音频，相较前代速度翻倍。这意味着用户在享受更高音质输出的同时，还能获得更快的响应体验，有效降低了推理成本，提升了实际部署效率。

面向开发者生态的建设，此次更新也带来了实质性利好。官方首次提供了完整的LoRA微调及全量参数微调脚本，极大降低了个性化训练门槛。开发者可根据具体业务需求，灵活调整模型行为，实现声音风格、语调特征等维度的深度定制，拓展出更多元的应用可能。

此外，团队还针对长文本语音合成中的常见问题进行了专项优化，显著减少了音频伪影现象的发生，使整体听感更为连贯自然，尤其在处理复杂句式或较长语段时表现出更强的稳定性。

目前，VoxCPM 1.5已同步在GitHub与Hugging Face平台开源，向全球开发者免费开放使用。

想玩转AI社交，腾讯元宝得大胆点