在近日于加州圣地亚哥举办的 NeurIPS 人工智能大会上,Nvidia 宣布了多项面向物理 AI 领域的重大技术进展,涵盖新型基础设施与前沿 AI 模型,旨在推动能够感知并主动与现实世界交互的智能体——如自动驾驶汽车和机器人——加速落地。

其中最受关注的是 Alpamayo-R1,一款专为自动驾驶研发打造的开放推理型视觉语言模型。据 Nvidia 介绍,这是业界首个聚焦于自动驾驶场景的视觉语言行为模型,具备同时理解图像与文本的能力,使车辆不仅能“看见”道路状况,还能基于上下文进行推理并作出合理决策。
Alpamayo-R1 构建于 Nvidia 此前推出的 Cosmos-Reason 模型之上,后者强调在输出响应前进行深度思考与逻辑推演。Cosmos 系列最初于 2025 年 1 月亮相,并在同年 8 月进一步扩充了模型家族。Nvidia 表示,Alpamayo-R1 的发布对于致力于实现 L4 级自动驾驶(即在限定环境和条件下完全无需人工干预)的企业而言,具有关键战略意义。
通过引入类人“常识”推理能力,该模型有望显著提升自动驾驶系统在复杂、动态交通场景中的判断力与适应性。与此同时,Nvidia 还在 GitHub 上同步开源了一整套开发资源包——Cosmos Cookbook,内容涵盖从数据清洗、合成数据生成到模型微调与评估的全流程指南,为开发者提供端到端的支持,降低 Cosmos 系列模型的应用门槛。
这一系列动作清晰表明,Nvidia 正全力押注物理 AI 赛道,并依托其领先的 AI GPU 硬件生态构建下一代智能基础设施。公司联合创始人兼 CEO 黄仁勋多次公开指出,物理 AI 将成为人工智能演进的下一波核心浪潮。而 Nvidia 首席科学家 Bill Dally 也在今年夏季接受 TechCrunch 采访时强调,未来的机器人将深度融入人类生活,而 Nvidia 的目标正是成为这些智能体的“大脑”供应商,为此必须掌握底层关键技术。
划重点:
🌟 Nvidia 推出了 Alpamayo-R1,这是首个专为自动驾驶设计的开放推理视觉语言模型。
🚗 该模型基于 Cosmos-Reason,旨在帮助车辆更好地理解周围环境并作出决策。
📚 同时,Nvidia 还提供了 Cosmos Cookbook,助力开发者有效训练和使用 AI 模型。
