AI领域的"小模型"战略,正在悄然掀起一场技术革命。

继麻省理工系创业公司Liquid AI推出可嵌入智能手表的视觉模型,以及谷歌发布手机端小型AI后,英伟达也正式加入战局,推出全新轻量级语言模型Nemotron Nano v2。这款仅90亿参数的模型,在复杂推理任务中表现与阿里通义千问Qwen3-8B不相上下,部分指标甚至更优,推理速度更是最高提升6倍。
这并非偶然。英伟达此前发表的论文就明确提出"小模型才是智能体的未来",如今他们正用实际行动践行这一理念。
更令人瞩目的是,英伟达此次罕见地开源了模型训练所需的绝大部分数据,包括庞大的预训练语料库,展现出前所未有的开放态度。
20万亿token的数据量,为Nemotron Nano v2提供了坚实的训练基础。
性能媲美Qwen,速度六倍提升
官方测试显示,Nemotron Nano v2在多项复杂推理基准测试中,准确率与顶尖开源模型Qwen3-8B持平甚至超越,同时响应速度最高可达后者的6倍。这一突破使其在资源有限的边缘设备上展现出巨大潜力。
该模型由英伟达从零开始训练,旨在打造能同时胜任推理与非推理任务的"全能选手"。其核心特性包括:
- 支持"思考过程"显式输出:先生成完整推理链条,再给出最终结论
- 提供"思考预算控制"功能:可设定用于推理的token数量,平衡速度与质量
英伟达工程师Oleksii Kuchaiev透露:"我们最初沿用Qwen3的方案,但发现模型仍会在后台'偷偷'推理。通过针对性训练截断思维链,最终解决了这个问题。"
全面开源,细节透明
实测数据显示,Nemotron Nano v2表现亮眼:
- 推理模式下:AIME25得分72.1%,MATH500高达97.8%
- 指令遵循任务:IFEval得分90.3%
- 长上下文任务:RULER 128K测试达78.9%
训练流程分为三个阶段:
- 预训练:FP8精度,20万亿token,支持128k长上下文
- 后训练:采用SFT、GRPO等技术优化,引入5%截断推理数据
- 压缩:通过剪枝与蒸馏,可在单张NVIDIA A10G GPU上高效运行
英伟达还开源了两个关键基础版本,为研究者提供了宝贵的中间态资源。
揭秘66万亿token数据宝库
本次开源的Nemotron-Pre-Training-Dataset-v1数据集总量达66万亿token,包含:
- 升级版网络数据:支持15种语言问答
- 数学专用数据:1330亿token,LaTeX格式
- 精选代码数据:覆盖11种编程语言
- 高质量指令数据:整合STEM、学术等多领域
这些数据规模之大,展现了AI模型对知识的惊人需求。
开放战略的深远影响
与部分科技巨头收紧闭源策略形成鲜明对比,英伟达近期开源动作频繁且彻底。从Llama Nemotron Super v1.5到本次的Nemotron Nano v2,都彰显其开放共赢的战略意图。
这种选择将为AI产业带来怎样的影响?让我们拭目以待。
论文:
https://research.nvidia.com/labs/adlr/files/NVIDIA-Nemotron-Nano-2-Technical-Report.pdf
模型:
https://huggingface.co/collections/nvidia/nvidia-nemotron-689f6d6e6ead8e77dd641615
试用:
https://build.nvidia.com/nvidia/nvidia-nemotron-nano-9b-v2

