当自动驾驶从科幻走进现实,一场关于技术路线的深度博弈正在全球科技巨头与汽车制造商之间悄然上演。

截至2025年中,Waymo在美国多个主要城市部署的无人出租车已突破1500辆,每周服务超25万人次;百度Apollo则在全球累计完成逾1100万次载客任务,安全行驶里程逼近1.7亿公里大关。这些数字背后,不仅是商业化的加速落地,更折射出自动驾驶技术尚未统一的底层逻辑分歧。
表面看,自动驾驶似乎已进入成熟期,实则其核心技术路径仍处于激烈碰撞与演化之中。
从感知世界的“眼睛”选择,到决策系统的“大脑”架构,再到理解环境的“认知”模型,每一条技术路线都代表着对未来出行的不同想象。纯视觉还是多传感器融合?模块化设计能否被端到端架构取代?VLM与VLA,谁才是自动驾驶的终极灵魂?这些问题至今没有定论。
感知之争:摄像头能否替代激光雷达?
自动驾驶的第一步,是让机器“看见”世界。这条起点之上,早已形成两大对立阵营。
2004年,DARPA在莫哈韦沙漠举办首届自动驾驶挑战赛,卡内基梅隆与斯坦福团队凭借搭载激光雷达的车辆脱颖而出。这项技术能生成高精度三维点云,迅速成为行业标准,也被Waymo发扬光大。然而,早期动辄数万美元的单价,让激光雷达注定难以普及。
十年后,特斯拉另辟蹊径。马斯克断言“激光雷达是死路”,力推纯视觉方案。通过8个摄像头采集数据,依赖深度学习从二维图像中还原三维空间,成本骤降的同时,依托海量车队形成“数据飞轮”,持续优化算法。
但视觉系统在黑夜、暴雨、强光下极易失效。多传感器融合派则坚持:人类驾驶依赖的是多重感官协同,机器更需硬件冗余来保障安全。因此,主流车企如小鹏、蔚来、华为等均选择融合激光雷达、摄像头与毫米波雷达的路线,以应对极端场景。
如今,两派界限逐渐模糊。纯视觉方案开始引入雷达补盲,而融合派也愈发重视视觉语义理解能力,技术正走向交叉与共融。
冗余之辩:4D毫米波雷达的价值何在?

即便在融合派内部,传感器配置也充满权衡。为何不全用毫米波雷达?毕竟它成本低、穿透力强,可在雨雪雾中稳定工作。
答案在于精度。毫米波雷达点云稀疏,难以识别物体轮廓,易产生误判。而激光雷达虽在恶劣天气中性能下降,却能在常规条件下提供厘米级精度,精准捕捉静态障碍物,这是L4级自动驾驶的安全底线。
因此,高端Robotaxi普遍采用“激光雷达为主、毫米波为辅”的策略,而经济型L2+车型则以摄像头+毫米波为核心,辅以1-2颗激光雷达,实现成本与安全的平衡。
这场博弈,本质是工程现实与商业成本的拉锯战。未来,传感器将不再孤立存在,而是深度融合,形成动态协同的感知网络。
架构之变:流水线式系统会被AI彻底颠覆吗?
如果说传感器是感官,算法便是大脑。传统模块化架构将驾驶拆解为感知、预测、规划、控制等环节,如同流水线作业,逻辑清晰却存在信息损耗。
2023年,特斯拉FSD V12引入端到端模型,直接将原始数据映射为控制指令,模仿人类“看一眼就能开”的直觉驾驶。这一模式性能上限更高,但如同黑箱,难以追溯决策过程,令多数车企心存疑虑。
于是,“显式端到端”应运而生——在神经网络中保留中间输出,兼顾性能与可解释性。这标志着行业正从规则驱动迈向数据驱动,却又不愿放弃对安全的掌控。
认知之战:AI该当助手,还是司机?
更深层的分歧在于“灵魂”归属。VLM(视觉语言模型)将AI视为辅助思考者,负责理解与推理,决策仍由传统系统执行;VLA(视觉语言动作模型)则追求AI自主驾驶,认为足够大的模型能“涌现”出超越人类的驾驶能力。
VLA潜力巨大,但训练成本高昂,且事故归因困难,与汽车功能安全标准相悖。目前仅特斯拉孤军深入。而VLM凭借可解释性与较低数据门槛,赢得Waymo、华为、小鹏等广泛支持。

历史从未由单一技术终结。激光雷达与视觉在融合,模块化与端到端在互鉴,VLM与VLA在角力。这些争议不是阻碍,而是进化的动力。最终,自动驾驶的未来,或许不在某条路线的胜利,而在所有分歧的交汇之处。
