在近日于加州圣地亚哥举行的 NeurIPS 人工智能大会期间,芯片巨头英伟达高调发布了一系列面向物理人工智能(Physical AI)的新基础设施与模型工具,进一步巩固其在下一代人工智能技术浪潮中的战略布局。所谓物理人工智能,是指能够感知、理解并主动与现实世界交互的智能系统,涵盖自动驾驶汽车、服务机器人等前沿应用场景。
首款面向自动驾驶的推理型视觉语言模型问世

英伟达此次重点推出了一款名为 Alpamayo-R1 的开放式推理视觉语言模型(VLAM),专为自动驾驶研究量身打造。据官方介绍,这是业界首个聚焦于自动驾驶任务的视觉语言动作模型。该模型具备同时解析图像与文本的能力,使车辆不仅能“看见”道路状况,还能结合语义理解进行推理决策,从而更接近人类驾驶员的判断逻辑。
Alpamayo-R1 基于英伟达自研的 Cosmos-Reason 推理架构开发,后者赋予模型在输出响应前进行内部“思考”的能力——即通过多步推理模拟人类面对复杂情境时的决策过程。英伟达强调,这种具备“常识推理”能力的技术,对于致力于实现 L4 级高度自动驾驶的企业而言至关重要。目前,该模型已在 GitHub 与 Hugging Face 平台全面开源,供全球开发者和研究机构使用。
Cosmos Cookbook:为开发者铺平落地路径
除核心模型外,英伟达同步上线了名为 Cosmos Cookbook 的一整套开发资源包。该资源包以分步指南形式呈现,覆盖从原始数据清洗、合成数据生成到模型评估与优化的全流程,旨在降低开发者在实际项目中部署和微调 Cosmos 系列模型的门槛。通过提供标准化的工作流模板和最佳实践建议,Cosmos Cookbook 力求加速物理 AI 应用从实验室走向真实世界的进程。
押注物理人工智能,抢占下一波技术制高点
此次密集发布并非偶然,而是英伟达全面进军物理人工智能领域的关键一步。公司联合创始人兼 CEO 黄仁勋多次公开指出,“下一波 AI 浪潮将是物理 AI”,而英伟达的高性能 GPU 正是支撑这一愿景的核心引擎。首席科学家比尔·戴利也呼应了这一战略方向,他特别强调机器人将成为物理 AI 最重要的载体之一,并表示:“我们希望成为所有机器人‘大脑’的缔造者。”为此,英伟达正系统性地投入关键技术的研发,从底层芯片到上层模型,构建完整的物理智能生态体系。
