678CHAT AI资讯 快手Klear-Reasoner模型数学推理准确率突破90%,开源8B参数模型新标杆

快手Klear-Reasoner模型数学推理准确率突破90%,开源8B参数模型新标杆

在人工智能技术迅猛发展的今天,大语言模型的推理能力已成为衡量其性能的关键指标,尤其在数学与代码领域表现更为突出。快手最新推出的Klear-Reasoner模型凭借卓越表现引发业界关注,这款基于Qwen3-8B-Base架构深度优化的模型,在多项权威评测中成绩亮眼,数学推理准确率突破90%,成为同级别开源模型中的性能标杆。

快手Klear-Reasoner模型数学推理准确率突破90%,开源8B参数模型新标杆插图

模型优异表现的背后,离不开其创新的GPPO训练算法(Gradient-Preserving Clipping Policy Optimization)。该算法巧妙解决了传统强化学习的痛点:

传统裁剪机制虽然能防止模型更新幅度过大,但过度裁剪会导致关键梯度信息丢失,使模型变得过于保守。而GPPO算法通过保留所有梯度参与反向传播,实现了"无损"裁剪,在保证训练稳定性的同时,显著提升了模型对复杂问题的探索能力。

从实测数据来看,Klear-Reasoner确实展现出不俗实力:

  • AIME2024评测准确率达90.5%
  • AIME2025更难的测试集上仍保持83.2%准确率

值得一提的是,研究团队公开的训练策略揭示了成功秘诀:

  1. 严格筛选高质量训练数据
  2. 强化学习阶段保留错误样本促进学习
  3. 采用"软奖励"机制提升反馈细腻度

重要发现:数据质量对模型性能的影响远超数据数量。在监督微调阶段,精细清洗训练数据、剔除错误标注,能显著提升模型效果。同时,"软奖励"机制比传统"硬奖励"更能平稳引导模型优化。

Klear-Reasoner的推出不仅展示了快手在AI领域的技术实力,更为开源社区提供了可复现的高性能推理模型训练方案。其在算法、数据和训练策略上的创新,为大模型优化提供了宝贵参考。

  • Hugging Face地址:https://huggingface.co/Suu/Klear-Reasoner-8B
  • GitHub地址:https://github.com/suu990901/KlearReasoner/tree/main

核心亮点:

🌟 8B参数规模下数学推理准确率突破90%

🧠 GPPO算法创新解决梯度裁剪难题

📈 数据质量优先策略带来显著性能提升

本文来自网络,不代表678CHAT立场,转载请注明出处:https://www.678chat.com/ai/18518.html

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注

返回顶部