苹果突破性训练法RLCF问世，大模型复杂指令处理能力提升最高8.2%

8月26日，科技资讯网站9to5Mac援引苹果公司最新发布的学术论文称，其研究团队提出了一种名为“基于清单反馈的强化学习”（Reinforcement Learning from Checklist Feedback，简称RLCF）的新型训练机制。该方法旨在显著提升大语言模型处理复杂、多层次指令的能力，突破了当前主流训练范式，为AI模型的精细化调优提供了新思路。

与依赖人类“点赞”或“点踩”的传统RLHF方法不同，RLCF的核心创新在于引入结构化任务清单作为反馈依据。系统会为每一条用户指令生成详细检查清单，其中每项任务均可进行0至100分的量化评分，从而为模型提供更精确、可操作的优化信号。这种机制特别适用于多步骤、多条件的复杂任务，能显著提升模型的任务完成质量。

实验数据显示，RLCF成为唯一在所有测试基准上均实现性能提升的方案，部分任务优化幅度高达8.2%

研究团队在Qwen2.5-7B-Instruct模型上进行了验证，测试覆盖FollowBench、InFoBench和Arena-Hard等五个主流基准。结果显示：RLCF在FollowBench的硬性满意率提升4%，InFoBench得分提高6点，Arena-Hard的人类偏好胜率上升3%。这证明清单式反馈能有效提升模型处理复杂任务的能力。

值得一提的是，为构建训练数据集，团队借助更强的Qwen2.5-72B-Instruct模型，为超过13万条指令生成了名为“WildChecklists”的评估清单。这些清单包含清晰的二元判断条目（如“是否已将文本翻译为西班牙语？”），由大模型对候选回答逐项核对评分，最终加权生成奖励信号来指导小模型训练。

不过研究人员也指出RLCF的局限性：其一，该方法依赖高性能“评判模型”生成清单，对计算资源要求较高；其二，它主要提升任务执行的准确性和完整性，并未涉及安全性对齐，因此不能替代传统安全评估流程。此外，其普适性仍需进一步验证。

尽管存在这些限制，RLCF仍为大模型的精细化训练提供了创新方向，有望推动AI更可靠地处理复杂指令。

相关文章

想玩转AI社交，腾讯元宝得大胆点

小心裸奔的开源AI！没人管可能被黑客当跳板

ChatGPT Agent 用户跑了七成五，定位不清成最大硬伤

清华推出法律大模型LegalOne-R1，智能司法要变天了！

Sora下载量暴跌45%！OpenAI的领先优势还稳吗？

小红书悄悄试水语音问一问：真人经验+AI，搜得更懂你

发表回复 取消回复

发表回复取消回复