英伟达4B小模型干翻GPT-5 Pro！单任务成本只要1/36

在人工智能竞赛的赛道上，一场由小模型掀起的风暴正在悄然改变游戏规则。最新公布的ARC-AGI 2榜单显示，英伟达推出的NVARC模型以27.64%的准确率强势登顶，不仅将GPT-5 Pro（18.3%）远远甩在身后，更以其惊人的性价比引发行业热议——单任务推理成本仅为20美分，不到GPT-5 Pro七十分之一。

这场胜利的背后，并非依赖参数规模的“暴力美学”，而是一套精巧设计的技术路径：用离线合成数据替代在线复杂推理，把计算重担前置，让上线模型轻装上阵。面对Kaggle赛事严格的资源限制，NVARC团队另辟蹊径，放弃直接调用大模型进行实时推导，转而构建了一条高吞吐、可验证的合成数据流水线。

他们整合H-ARC与BARC中的基础谜题，通过系统性组合生成新样本，借助如GPT-OSS-120B等开源大模型批量生产高质量训练对。整个流程被拆解为多个独立验证阶段，确保每一步输出可靠。最终，一个包含超过320万组增强样本的数据集诞生，每个样本最多涵盖7组输入输出配对，为小模型注入了强大的泛化能力。

核心技术基于改进版ARChitects框架，主干采用Qwen3-4B这一中等体量模型，通过对话式提示模板降低理解门槛。训练过程依托NeMo RL与Megatron后端完成监督微调，但真正拉开差距的关键，在于“测试时微调”（TTFT）策略的引入。

针对ARC-AGI 2“每道题即一全新世界”的特性，NVARC为每个问题单独执行LoRA微调，使模型能在答题前快速适应未知规则。同时，解码阶段的DFS算法经过批处理优化，解决了结果不稳定的问题；并统一调度八类数据增强手段评估候选方案，显著提升了解的鲁棒性。

尽管后期尝试融合TRM方法与额外模型进行集成，受限于算力和机制并未带来质的飞跃，但这已不妨碍其成为当前最优解之一。

有人质疑：这是否只是过度拟合测评场景的“应试专家”？但值得深思的是，AI的价值本就不该被单一维度定义。当通用大模型在追求全能的同时背负高昂成本，这类专注特定任务的小模型反而展现出更强的实用性与部署灵活性。

它们不求通晓万物，只求在关键场景下做到极致高效。正如一位开发者所言：“未来的AI或许不该一味追求‘庞大’，而应更加‘敏捷’。”

这一次，4B参数的NVARC用实力证明：有时候，少即是多，快就是强。方法论的创新，正让“小而美”的模型迎来属于自己的黄金时代。

相关文章

想玩转AI社交，腾讯元宝得大胆点

小心裸奔的开源AI！没人管可能被黑客当跳板

ChatGPT Agent 用户跑了七成五，定位不清成最大硬伤

清华推出法律大模型LegalOne-R1，智能司法要变天了！

Sora下载量暴跌45%！OpenAI的领先优势还稳吗？

小红书悄悄试水语音问一问：真人经验+AI，搜得更懂你

发表回复 取消回复

发表回复取消回复