特斯拉 vs 中国自动驾驶:纯视觉与传感器融合的现实对决
截至 2025 年,特斯拉的 FSD 展现出卓越的高速公路性能和快速的人工智能驱动改进,在关键干预之间实现了约 744 英里的行驶里程。华为、小鹏和蔚来等中国厂商的系统在复杂的城市环境中表现出色,活跃用户参与率高达 82-86%,并实现了零干预城市驾驶,利用了激光雷达、摄像头和雷达等多传感器融合技术。不同的方法反映了截然不同的理念:特斯拉押注于仅依靠视觉技术实现人工智能的扩展,而中国厂商则优先考虑通过硬件冗余实现即时可靠性。
竞争格局呈现出意想不到的趋同。小鹏汽车于2024年放弃激光雷达,转而采用特斯拉的纯视觉方案。与此同时,激光雷达成本从4100美元暴跌97%至138美元,使传感器融合技术在大众市场汽车中成为可能。特斯拉的重大挫折发生在2025年8月,当时该公司关闭了Dojo超级计算机项目,放弃了其定制的AI训练基础设施,并增加了对英伟达的依赖。与此同时,在政府有利法规的支持下,中国制造商在2025年为1500万辆汽车部署了先进的自动驾驶系统,并领先于特斯拉纯监督全自动驾驶系统(FSD)实现了L3级高速公路自动驾驶。
当前实际性能揭示了明显的场景差异
特斯拉的FSD v13在受控高速公路条件下取得了令人印象深刻的成绩,在中国严格的Dcar/CCTV自动驾驶测试中,6个场景中有5个场景得分最高,超过了大多数配备激光雷达的竞争对手。该系统展现出近乎零的幻影制动,即使在标线褪色的情况下也能保持出色的车道保持能力,以及高达190公里/小时的高速平稳运行。实际测试显示,FSD v12.5 平均关键脱离间隔为744英里,比之前的版本提升了3.8倍。然而,独立的AMCI测试揭示了一个更令人担忧的现实:在1000英里的路程中,干预次数超过75次,在不同路况下平均每13英里一次。
通过全面的正面对比,中国传感器融合系统展现出卓越的城市性能。2025年初,AutoLab在相同路线上对特斯拉FSD v13与中国竞争对手进行了测试,结果至关重要。与小米SU7相比,特斯拉需要驾驶员干预6次,而小米则在1小时21分钟内完成了零干预。在与理想汽车 L9 自动驾驶系统进行的长达 3 个多小时的艰苦测试中,特斯拉完成了 16 次接管,而理想汽车完成了 10 次。小鹏汽车的 XNGP 系统无需干预即可完成城市路线,而特斯拉在变道和意外操控方面则举步维艰。其中的规律显而易见:中国系统在处理混合行人交通、短距离切入和复杂交叉路口方面比特斯拉的纯视觉系统更可靠。
用户体验数据显示,不同地区之间存在巨大的满意度差距。根据美国汽车协会 (AAA) 的 2025 年调查,只有 13% 的美国驾驶员信任自动驾驶汽车,35% 的消费者表示 FSD 降低了他们购买特斯拉的可能性,这一比例是该功能吸引的 14% 的两倍多。特斯拉的购买率说明了这一点:仅有 14% 的 Model 3/Y 购买者选择 FSD,低于几年前的 50%,并且大约一半拥有 FSD 访问权限的车主从未启用过该功能。中国系统的结果则截然相反。小鹏汽车的XNGP在合格用户中拥有82-86%的月活跃使用率,而华为的ADS到2025年8月已实现100万辆的安装量,用户满意度很高。这种差异部分源于预期——特斯拉的监督自动驾驶收费为8,000-15,000美元,而许多中国系统是与车辆购买捆绑销售的。
安全指标揭示了测量挑战掩盖了真实性能
特斯拉发布的季度安全报告称,在启用FSD的情况下,每669万英里(约1000万公里)发生一次事故,而在未启用FSD的情况下,每96.3万英里(约150万公里)发生一次事故,这表明该系统的安全性是人类驾驶员的7倍。彭博行业研究分析称,特斯拉每百万英里(约100万公里)的事故率为0.15起,而美国平均水平为3.90起,相当于安全系数高出26倍。然而,这些统计数据面临着严重的方法论批评。特斯拉仅统计触发安全气囊展开的碰撞事故(约 12 英里/小时以上的碰撞),排除轻微事故,主要收集事故自然发生频率较低的高速公路里程。该公司因延迟数月提交强制性碰撞报告,于 2025 年 8 月面临美国国家公路交通安全管理局 (NHTSA) 的调查,引发了透明度方面的担忧。
中国自动驾驶系统公开提供的定量安全数据极少,造成了苹果和橘子之间的比较问题。百度的 Apollo Go 声称“行驶超过 1 亿公里,未发生重大事故”,其安全性能“超过人类驾驶十倍以上”。但该公司既没有定义“重大事故”,也没有定义衡量方法。中国制造商无需公布每英里碰撞事故指标,也无需向 NHTSA 的常规系统等集中式数据库报告事故。一些罕见事故——例如 2024 年 7 月 Apollo Go 在武汉发生的行人碰撞事故,以及 2025 年 8 月在重庆发生的工地坑道事故——主要通过社交媒体传播而非官方披露引起公众关注。
NHTSA 的调查描绘了特斯拉处理极端案例的令人担忧的画面。该机构于 2024 年 10 月启动了 PE24-031 号调查,涉及 240 万辆特斯拉汽车,此前在低能见度条件下(阳光眩光、雾天、扬尘)发生了四起碰撞事故,导致一人死亡,另有多人受伤。2023 年 11 月发生的一起事故尤其令人担忧:一辆启用了全自动驾驶 (FSD) 的 Model Y 在阳光眩光条件下撞死了一名 71 岁的行人,导致其死亡,原因是未能同时检测到停下的车辆和行人。铁路道口故障成为另一个关键缺陷, NBC 新闻记录了 6 起以上 FSD 未能探测到火车或交叉路口的事件,促使参议院提出调查请求。这些模式故障表明,纯视觉系统在特定环境条件下面临固有的局限性,而传感器融合方法可以通过冗余来缓解这些局限性。
来自独立来源的比较安全分析提供了最清晰的图景。瑞士再保险公司 2024 年 12 月对 Waymo 传感器融合机器人出租车(使用激光雷达、摄像头和雷达)进行的一项研究显示,在 2530 万英里的自动驾驶里程中,与人类驾驶员相比,财产损失索赔减少了 88%,人身伤害索赔减少了 92%。Waymo 2025 年 6 月的报告显示,Waymo 每百万英里发生 0.41 起受伤事故,而人类驾驶员为 2.80 起——在 9600 万英里的纯乘客里程中,受伤事故减少了 85%。虽然与特斯拉的 2 级监管要求相比,Waymo 代表了完全的 4 级自动驾驶,但传感器融合方法在实际部署中展现出了卓越的安全性。使用类似多传感器架构的中国系统可能实现虽然缺乏公开数据,但安全裕度相当,因此无法得出明确的结论。
天气和光照条件暴露了根本的技术限制
纯视觉系统在恶劣条件下会面临性能下降的记录,而多传感器融合方法可以更好地应对这些情况。摄像头会严重受到水滴的影响,大雨(每小时 30-40 毫米)会显著降低其有效性。太阳眩光会产生晕染效应,导致摄像头传感器失明,特斯拉 2023 年 11 月发生的致命事故就是明证。低光照条件会降低检测范围和准确性,而对面车辆的前灯眩光会影响感知。特斯拉在美国国家公路交通安全管理局 (NHTSA) 的调查中明确指出,天气是多起 FSD 事故的促成因素。该系统会警告驾驶员“路况恶化”,要求驾驶员立即接管车辆——而这正是自动驾驶辅助系统最需要帮助的时候。
根据韩国土木工程研究所的实证研究,基于激光雷达的传感器融合在恶劣天气下展现出可量化的优势。在小雨(每小时 10-20 毫米)下,激光雷达系统能够保持90% 以上的检测性能。即使在强降雨(每小时 30-40 毫米)下,系统在反射表面上仍能保持 74% 以上的性能,但金属表面检测在 20-30 米范围内会失效。雾天测试表明,弱雾(能见度≥150 米)下性能保持约 90%,而浓雾(能见度≤50 米)下性能仅比晴朗天气降低 26%。至关重要的是,LiDAR 昼夜运行一致,不受照度变化的影响,无论光照条件如何,都能提供一致的 360 度感知。汽车 LiDAR 使用的 905nm 波长光不受环境光影响。
多传感器融合可在单个传感器性能下降时提供冗余,从而实现平稳的故障模式,而不是突然的性能损失。当摄像头在眩光或雨天难以应对时,雷达仍能继续提供速度测量和障碍物检测。当 LiDAR 性能在强降水条件下下降时,摄像头仍能保持对道路标记和交通标志的语义理解。中国的系统明确设计为“全天候、通过这种互补架构,实现“全场景”操作。华为的 ADS 3.0 配备三个激光雷达传感器、六个雷达和九个摄像头,确保至少两种类型的传感器能够感知任何关键物体或情况。蔚来汽车的 33 个传感器套件提供全面覆盖,并内置冗余,以实现对安全至关重要的感知。
在对比测试中,实际应用效果显而易见。特斯拉 Model X 在 Dcar 的高速公路测试中未能通过漆黑的施工区场景——这是顶级车型中唯一的失败案例——而配备激光雷达的中国车型则成功检测到了静止的卡车障碍物。美国公路安全保险协会 (IHS) 的研究发现,基于摄像头/雷达的车辆d 行人检测系统“在所有测试的黑暗环境下均失效”,并指出 75% 的美国行人死亡事故发生在夜间。技术现实与特斯拉的人类视觉类比相矛盾:人眼提供单摄像头系统所缺乏的立体深度感知、情境推理和自适应能力,而人类的夜视是通过摄像头无法复制的生物机制实现的。
技术架构差异导致能力配置差异
特斯拉的纯视觉方法以端到端神经网络理念为中心,该理念在 2024 年初的 FSD v12 版本中发生了根本性转变。该公司淘汰了 30 多万行手工编写的 C++ 规则,用一个单一的大规模神经网络取代了模块化的感知-预测-规划架构,该网络直接根据摄像头输入进行决策。FSD v13(2024 年 12 月)带来了“泊车到泊车”功能,可处理来自 Hardware 4 改进的 5MP 分辨率摄像头的 36 Hz 全分辨率视频(比 Hardware 3 提升 2.3 倍)。该系统基于双 Nvidia Orin 芯片运行,可为 HW4 车辆提供 508 TOPS 的计算能力。特斯拉声称,通过在 Cortex 超级计算机的 10 万块 H100/H200 GPU 上进行训练,v13 的性能比 v12 提升了 500%。
特斯拉定制 Dojo 超级计算机于 2025 年 8 月关闭,标志着一次重大战略逆转,埃隆·马斯克称之为“进化的死胡同”。这种被迫放弃垂直整合的做法增加了特斯拉对外部合作伙伴的依赖(GPU 依赖 Nvidia,下一代 AI6 芯片依赖三星),这可能会减缓开发速度。硬件限制也随之而来:AI4 的内存容量限制了 FSD v14 计划的 10 倍参数增长,迫使特斯拉“精简”训练模型以适应现有的硬件配置。纯视觉方法关键依赖于 AI 的扩展——如果没有定制的基础设施来加速这种扩展,特斯拉的竞争优势就会缩小。
中国制造商大幅提升了计算能力,并增加了传感器数量,以实现全面的环境感知。蔚来汽车的自动驾驶辅助系统 (NAD) 采用四颗 Nvidia Orin X 芯片,可提供 1,016 TOPS(相当于特斯拉处理能力的两倍)以及 33 个传感单元,其中包括一颗超远距激光雷达(探测距离 500 米)、七颗 800 万像素摄像头、四颗 300 万像素环视摄像头、五颗毫米波雷达和 12 个超声波传感器。“瞭望塔”式传感器布局提供卓越的可视性,数据吞吐量高达每秒 8 GB。蔚来汽车定制的深基 NX9031 芯片(5 纳米工艺,集成超过 500 亿个晶体管)将四颗 Orin X 芯片集成在一个硅片封装中,展现了中国制造商对垂直整合的积极推动,而特斯拉却讽刺地放弃了这种做法。
华为的 ADS 3.0 代表了业界传感器最丰富的方案,配备了三颗 128 线激光雷达、11 颗高清摄像头、三颗毫米波雷达和 12 个超声波传感器。市场上唯一的三激光雷达系统提供了竞争对手所缺乏的冗余,而 WEVA 架构则使用世界引擎生成虚拟训练场景。这种方法需要更少的真实世界训练数据,因为丰富的传感器融合可以提供更即时的环境理解——这是加快部署的关键优势。华为旗下估值 160 亿美元的汽车子公司通过 Tier 0.5 模式为 10 多家原始设备制造商提供完整的自动驾驶解决方案,在合作伙伴之间分担开发成本,同时实现了特斯拉直接面向消费者模式无法比拟的规模经济。
小鹏汽车出人意料地在 2024 年战略转向纯视觉系统,标志着融合的兴起。该公司的新款 P7+、改款 G6 和升级版 G9 车型取消了激光雷达选配,采用了与特斯拉类似的“AI 鹰眼”纯视觉系统。小鹏汽车高管表示,端到端神经网络降低了传感器融合的价值,这与特斯拉关于传感器输入冲突的“1+1 不等于 2”的论点相呼应。然而,这项削减成本的举措主要针对大众市场车型;高端车型则保留了传感器融合技术以实现最大性能。这种差异体现了市场细分:经济型车型仅采用视觉技术,L2+ 级别自动驾驶则采用传感器融合技术——这种分化可能将持续到 2030 年。
高速公路 vs. 城市驾驶性能揭示了架构上的权衡
高速公路场景展现了特斯拉纯视觉技术的最大优势,它利用了多年来主要在高速公路上行驶的 Autopilot 里程的训练数据。在受控测试中,特斯拉实现了几乎零的幻影制动,而早期版本则饱受误减速的困扰。即使在美国老旧高速公路上,车道保持系统也表现出色,在所有速度下都能保持平稳居中。Autopilot 导航系统能够可靠地处理高速公路的立交桥和出口,并在出口匝道前约 1.3 公里处启动变道。特斯拉的 Beta 测试人员报告称,使用 FSD v13 的“零干预”高速公路驾驶越来越常见,尽管这种情况偶尔会发生。在良好的天气和光照条件下,该系统表现出色。在训练数据全面覆盖预期情况的标准化场景中,该系统表现出色。
中国的传感器融合系统在高速公路上表现出更为保守但可靠的性能,并具有鲜明的特色。在同一项Dcar/CCTV测试中,特斯拉的Model 3和Model X得分为5/6,而中国顶级系统(小鹏G6和比亚迪Z9GT)得分为3/6——虽然表现不错,但落后于特斯拉的高速公路性能。然而,这种差距部分源于不同的设计理念。中国系统保持较短的跟车距离,适合亚洲交通拥堵的情况,而特斯拉较大的跟车距离会导致车辆频繁超车。由于激光雷达的3D空间感知能力能够提供精确的定位,中国系统在复杂的多车道匝道导航中表现出更自信的表现。华为Aito M9在P3的ADAS基准测试中得分为4.73/5.0,小鹏X9得分为4.60/5.0——这些评分反映了综合能力,而非单一场景下的表现。
城市驾驶完全颠覆了性能等级,中国系统在复杂的城市环境中展现出明显的优势。AutoLab 的一系列对比测试证明了其权威性:在相同城市路线上的多次正面对比中,特斯拉需要驾驶员干预 6-16 次,而中国竞争对手则需要 0-10 次。小米 SU7 完成了一条长达 1 小时 21 分钟的具有挑战性的路线,没有发生任何接管,而特斯拉则需要干预 6 次。常见的故障模式包括:特斯拉在出现干扰车辆时反复无法变道、试图进入自行车道、掉头失败而需要紧急停车,以及跟随前车意外变道。平均巡航速度低于中国竞争对手,表明其在不确定的情况下决策更为保守。
小鹏汽车的 XNGP 于 2024 年 5 月实现了 100% 无地图城市驾驶能力,能够无缝处理环岛、没有车道线的复杂交叉路口以及混合交通。该系统在上海的覆盖范围扩大了2.23倍,在广州的覆盖范围扩大了2.15倍,展现了其快速的地理扩展能力。蔚来的NAD Lane 2.0通过实时交叉路口感知和持续学习用户提交的路线,消除了对高清地图的依赖。理想汽车的VLM(视觉-语言-动作)模型在多项自动驾驶评测中以最少的干预次数荣登榜首,并已进行超过22亿公里的训练。这些中国系统专为亚洲城市驾驶的混乱而设计——电动滑板车在车流中穿梭,行人横穿街区中间,没有标记的交叉路口,以及特斯拉主要使用的西方训练数据无法捕捉到的激进驾驶规范。
LiDAR的短距离精度在城市复杂环境中具有决定性的优势。在大多数城市驾驶发生的30米以内的距离内,LiDAR可以以厘米级的精度检测骑行者、儿童、建筑障碍物和不规则障碍物。 3D 点云能够创建独立于视觉外观的精确空间模型——通过形状识别物体,而无需事先对所有可能的物体类型进行训练。这种泛化能力对于“边缘情况”至关重要,例如视觉系统难以分类的异常路障、施工设备或杂物。华为的 ADS 3.0 因其处理“难以预测的行人”的能力而备受赞誉,而蔚来的 360 度融合感知则擅长从各个方向无盲区地检测弱势道路使用者。
停车功能凸显了精度和可靠性方面的显著差异。特斯拉的 FSD v13 增加了“从停车位启动 FSD”功能,使车辆能够倒车出停车位并开始行驶。然而,终点停车仍然存在严重问题:系统经常停在过道中间而不是进入停车位,偶尔会尝试在人行道或装卸区停车,仅在标记清晰的停车场可靠运行,并且无法理解合法的停车限制(许可区、时间限制、禁止停车区)。基于视觉的自动泊车系统仅限于倒车入库,且成功率参差不齐。而中国系统的效果则显著优于其他系统。蔚来汽车的AI代客泊车系统提供“随时随地可用”的泊车功能,而小鹏汽车则宣称即使在售价9,550美元的海鸥车型中,泊车精度也达到了2厘米。仅在2024年,理想汽车用户就进行了8000万次智能泊车辅助,多家中国制造商也提供通过智能手机实现最远1公里外远程泊车的服务。激光雷达的精准度使得在中国人口密集的城市中普遍存在的地下车库停车位紧张问题不再是持续存在的挑战,而是得到了解决。
部署成功率和市场采用率呈现区域主导格局
特斯拉的FSD部署覆盖了更广泛的地域,但在其本土市场的采用指标令人担忧。该系统在北美(美国、加拿大、墨西哥、波多黎各)运营,并于2025年2月在中国推出,但其覆盖范围有限。ted 功能于 2024 年 9 月在澳大利亚上市,目前正在等待欧洲监管机构的批准。然而,市场渗透率严重滞后。数据显示,到 2024 年,只有 14% 的 Model 3/Y 买家选择 FSD(低于几年前的 50%),而 Model S/X 的采用率则达到 50-60%。更令人不安的是,大约一半拥有 FSD 访问权限的客户从未激活过该功能。根据 YipitData 的数据,在免费试用期后,订阅转化率仅为 2% 左右。这些指标表明,尽管技术演示令人印象深刻,但消费者对价值主张和安全性仍深表怀疑。
消费者情绪数据显示,在至关重要的美国市场,特斯拉的 FSD 导致的买家流失比吸引的买家更多。Slingshot Strategies 在 2025 年 8 月对 8,000 名受访者进行的调查发现,35% 的人表示 FSD 降低了他们购买特斯拉的可能性,而只有 14% 的人表示购买意向有所提高——净负面影响为 21 个百分点。具体来说,在电动汽车消费者中,33% 的人对全自动驾驶(FSD)持负面看法,而 20% 的人持正面看法。近 50% 的受访者认为 FSD 技术应该被禁止。安全认知度下降,36% 的人认为特斯拉不安全(高于 34%),而只有 13% 的人认为特斯拉非常安全(低于 17%)。调查显示,特斯拉目前是美国“声誉最差的电动汽车制造商”,埃隆·马斯克颇具争议的公开言论和政治关联除了技术问题外,还对其品牌造成了损害。
中国自动驾驶系统在用户中的参与度显著提高,表明其在实际可用性方面表现出色。小鹏汽车的 XNGP 在符合条件的用户中,城市驾驶的月活跃使用率高达 82-86%,是业内最高的普及率。这意味着,超过五分之四的拥有该功能的客户会定期积极使用该功能,而特斯拉从未尝试过的比例约为 50%。截至2025年8月,华为自动驾驶辅助系统(ADS)在多个合作品牌(AITO、Luxeed、Stelato、方成宝、Avatr)的安装量已达100万台,累计实际驾驶里程超过40亿公里。蔚来自动驾驶辅助系统(NAD)仅在2024年就服务了41.21万名活跃用户,累计行驶里程达12亿公里。理想汽车的自动驾驶辅助系统(AD Max)截至2024年底已覆盖超过32万名用户,累计行驶里程达29.3亿公里。
不同方案的定价策略存在根本差异,这也解释了采用率的差异。特斯拉的全自动驾驶辅助系统(FSD)一次性购买价格为8,000-15,000美元(2023年为15,000美元),或每月99-199美元,将自动驾驶功能定位为高级附加功能。中国制造商主要将系统与车辆购买捆绑销售,或以显著降低的增量成本提供。比亚迪的“民主化战略”包括将God's Eye自动驾驶系统作为标配,即使在售价低于1万美元的车型中也是如此,这与特斯拉的高昂定价形成了鲜明对比。小鹏汽车在“Max”级车型中标配XNGP,蔚来汽车将NAD自动驾驶系统作为NT 2.0平台车型的标配,理想汽车则将AD Max与最高配置车型捆绑销售。这种免费捆绑销售的方式迅速提升了市场份额,并将自动驾驶功能标准化为预期的基准配置,而非豪华配置。
中国国内市场优势得益于良好的监管环境和巨大的市场规模。截至2024年6月,已有9家汽车制造商获得政府批准进行L3级自动驾驶测试,统一的国家战略与西方国家的碎片化形成了鲜明对比。仅在2025年,中国制造商就已在1500万辆汽车上部署了先进的自动驾驶系统,预计到2025年,中国三分之二的新车将具备L2+级别自动驾驶能力。百度的Apollo Go在11个主要城市运营着超过2000辆自动驾驶出租车,而Waymo在美国的城市覆盖范围有限。 5G网络和车联网(V2X)通信的基础设施投资创造了外国制造商难以复制的生态系统优势。数据本地化要求使国内公司受益,同时也阻碍了特斯拉将中国驾驶数据导出用于训练,从而形成了结构性竞争壁垒。
监管审批时间表揭示了明显的市场准入差异。中国制造商在首次推出城市自动驾驶后的12-18个月内实现了全国覆盖,采用的是“黑名单”模式(除限制区域外,所有区域均可运行),而不是“白名单”模式的逐步扩展。特斯拉面临着持续的障碍:欧洲仍然受制于联合国欧洲经济委员会第157号法规,该法规要求驾驶员单独批准每项自动驾驶操作,这使得免提操作成为非法行为。中国限制特斯拉2025年2月上市的车型必须配备硬件4,要求每次软件更新都进行监管测试,并禁止导出用于训练的数据。这些不对称的壁垒意味着,中国制造商在其庞大的国内市场占据主导地位,而特斯拉却难以进入,即使中国品牌凭借积累的开发规模优势开始国际扩张。
未来轨迹在战略转变中指向意外的融合ies
特斯拉的路线图在2025年8月Dojo超级计算机停产后,信誉遭受重创,这损害了该公司“AI领导者”的形象,并迫使其更加依赖外部合作伙伴。这项定制训练基础设施项目于2021年宣布,并于2023年7月投入生产,但在马斯克称其为“进化的死胡同”后,该项目彻底停产。该团队解散,首席架构师Peter Bannon离职,约20名工程师组建了初创公司DensityAI。特斯拉目前依赖其由5万多个Nvidia H100 GPU组成的Cortex超级集群和三星制造的下一代AI6推理芯片。这代表着特斯拉从垂直整合转向合作伙伴关系的理念逆转,可能会减缓其发展速度,使其无法兑现承诺。
尽管基础设施遭遇挫折,FSD开发仍在继续,并设定了雄心勃勃的目标。版本 14 承诺将参数量提升 4.5 至 10 倍(从最初计划的 3 倍扩展),并从头开始重建完整的神经网络,这代表着融合奥斯汀自动驾驶出租车学习成果的“阶跃式改变”。特斯拉的目标是到 2025 年底在美国部分城市实现 FSD 无监督(无需驾驶员监督)功能,并根据高盛的预测,自动驾驶出租车将于 2026 年开始商业运营。然而,高盛预计 2027 年自动驾驶出租车的收入仅为 1.15 亿美元,车辆数量为 1500 辆——比马斯克的乐观预期低了几个数量级。随着时间表预测一再偏离,以及根本性的技术障碍持续存在,该公司的可信度差距不断扩大。
硬件限制日益制约着特斯拉“软件优先”的理念。AI4 的内存容量造成了瓶颈,迫使工程师“修剪”训练模型以适应硬件套件,从而无法充分利用 10 倍参数的神经网络。纯视觉方法受限于硬件限制,这意味着特斯拉可能需要部署 AI5 或 AI6 芯片(2026-2027 年)才能实现完全自动驾驶。与此同时,中国竞争对手凭借大幅提升的计算预算迅速发展:蔚来汽车的 1,016 TOPS(是特斯拉 254 TOPS 的四倍)以及未来将在单芯片中搭载多款旗舰处理器的神机 NX9031 芯片。随着中国制造商开发专门针对传感器融合工作负载优化的定制芯片,而不是重新利用通用汽车计算,计算能力差距进一步扩大。
在政府利好政策的支持下,中国制造商正在积极推进 L3 级自动驾驶的部署时间表。截至 2024 年 6 月,已有 9 家汽车制造商获得了 L3 级测试批准,并计划在 2025-2026 年实现高速公路 L3 级自动驾驶(驾驶员可以合法地将注意力转移到非道路行驶)的商业化。比亚迪与华为合作开发高端自动驾驶系统,同时开发自主研发的璇玑架构,拥有 5,000 名智能驾驶工程师(其工程团队总数为 110,000 名)。该公司在智能汽车技术方面投资了140亿美元,计划将2+/3级自动驾驶功能作为1.4万美元以下车型的标准配置。小鹏汽车在2024年实现了全国无地图覆盖,并计划到2025年实现类似4级自动驾驶的体验。蔚来汽车开发了5纳米智能驾驶芯片和专有的SkyOS操作系统,用于全栈控制。其迭代速度令人惊叹:在密集开发期间,一些系统每两天就会进行一次OTA更新,而特斯拉则每月进行一次重大更新。
激光雷达的成本变化轨迹从根本上改变了传感器融合的经济性,这可能证明了中国的做法优于特斯拉仅注重视觉的理念。在中国,激光雷达的价格从每台7.5万美元(2015年Waymo时代的机械激光雷达)暴跌至3万美元(2020年),再到4100美元(2023年)和138美元(2024年),在18个月内下降了97%。华为的中长距离96线激光雷达售价低于200美元,Luminar预计到2026年Halo传感器售价将达到500美元,MicroVision则计划到2028年将长距离传感器售价降至300美元。在这些价位下,对于售价3万至5万美元的汽车来说,传感器融合带来的1500至2000美元的增量成本几乎可以忽略不计,从而抵消了特斯拉的主要成本优势。全球激光雷达市场预计将从2024年的27.4亿美元增长至2030年的127.9亿美元,复合年增长率达31.3%,这主要得益于固态技术、芯片级集成以及禾赛科技和速腾聚创等中国企业的规模化制造。
技术融合正朝着意想不到的方向发展,一些中国制造商在成本大幅下降的同时放弃了激光雷达。小鹏汽车将于2024年10月推出P7+,这是首款不带激光雷达选配的纯视觉车型(随后是改款的G6和G9),此举震惊了业界。公司高管解释说,端到端人工智能使得传感器融合“1+1不等于2”,这与特斯拉的论点如出一辙。这一战略转变表明,纯视觉技术在具备足够的人工智能能力和训练数据的情况下也能发挥作用——这在一定程度上验证了特斯拉备受争议的押注。然而,大多数中国制造商仍将传感器融合技术应用于高端车型和L3+系统,从而形成了市场细分:L2+经济型车辆采用纯视觉技术,L2+经济型车辆采用多传感器融合技术。适用于 3/4 级高端细分市场和自动驾驶出租车。
尽管短期内仅依靠视觉技术可行,但专家共识日益一致地预测,多传感器融合技术将在长期内占据主导地位。麦肯锡的分析指出,4 级系统需要“基于激光雷达的 2+ 级能力”,而学术研究也一致表明,仅依靠摄像头的方法在恶劣天气下的性能存在问题。激光雷达在 200 米距离下精度可达 ±2 厘米,而摄像头的深度估计存在局限性,再加上冗余度和安全性方面的考量,多模态感知技术更适合安全关键型自动驾驶。行业调查显示,85% 的受访者预计北美将出现 3 家以上的主要参与者(采用多种方法),这表明技术多元化而非赢家通吃。高盛修订后的 2030 年预测显示,10% 的新车销量将达到 3+ 级(低于 2022 年估计的 12%),其中提到了技术限制以及监管和商业模式挑战——这表明进展速度低于早期乐观主义者的预测。
2030年最有可能的结果是市场格局分化,3-5家全球领先企业通过不同的技术方法服务于不同的地区和细分市场。特斯拉在面向大众市场的纯视觉L2+系统方面保持着软件开发优势和全球数据集优势。中国制造商在国内市场占据主导地位,并通过传感器融合方法引领L3级自动驾驶的部署,并凭借积累的规模优势开始国际扩张。Waymo、百度以及潜在的Cruise(如果复苏成功)将在地理围栏城市区域使用全面的传感器套件运营L4级自动驾驶出租车。不同的方法并存:纯视觉技术适用于成本敏感型应用,传感器融合技术适用于安全关键型和高端自动驾驶,而监管要求可能要求在无人监督操作中使用多传感器冗余。
新见解:这场竞赛揭示了比技术更深层次的哲学分歧
自动驾驶的竞争超越了单纯的传感器选择,揭示了关于可接受风险、开发理念以及智能本身本质的根本分歧。特斯拉的纯视觉方案体现了“与人类同等的感知就足够了”的理念:由于人类仅靠眼睛和生物神经网络驾驶,因此摄像头和硅基神经网络代表了理论上足够的解决方案。这种理念假设人工智能可以扩展至匹敌甚至超越人类的视觉处理和推理能力。这种押注要求人们相信,导致当前故障的极端情况——阳光眩光、异常物体、恶劣天气——将会屈服于更大的模型、更多的训练数据和更好的算法,而不是代表需要传感器多样性的固有摄像头限制。
中国制造商的传感器融合策略体现了“面向现实世界的工程”的务实主义,这种务实主义优先考虑即时可靠性和优雅降级,而非理论上的优雅。该方法承认不同的传感器模式会以不同的方式失效:摄像头在眩光和雨天中表现不佳,激光雷达在浓雾中性能下降,雷达在测速方面表现出色但分辨率不足。通过组合传感器,系统在单个模式失效时仍能维持部分功能,从而实现了在同质感知下无法实现的冗余。这种理念认为,为了更早地部署可靠的自动驾驶系统并更快地获得监管批准,更高的硬件成本是值得的投资——本质上是在为人工智能的追赶争取时间和安全裕度。82-86% 的活跃使用率(而特斯拉约 50% 的未试用率)这一非凡成就,证明了用户信任并重视即使在架构上“不够优雅”也能持续运行的系统。
Dojo 超级计算机的失败暴露了资本密集型人工智能基础设施开发中垂直整合的局限性。特斯拉在投入巨资(累计超过 50 亿美元的人工智能资本支出)后放弃定制训练芯片,表明即使是资金雄厚的公司也无法轻易与拥有数十年优化和生态系统开发经验的专业半导体巨头竞争。对英伟达的战略转向反映了更广泛的行业趋势:开发定制人工智能加速器需要大量的资金、技术专长和迭代改进,而通用制造商已经通过服务多元化客户实现了这些目标。这表明,未来的自动驾驶领导者可能会与专业供应商(例如英伟达、AMD、高通、华为)合作,而不是尝试全栈垂直整合——中国制造商早已通过广泛的合作伙伴关系认识到了这一现实。
市场采用模式显示,与作为高级选项相比,捆绑销售的自动驾驶功能销量更好,这表明消费者将这项技术视为基本的安全预期,而非奢侈的享受。比亚迪的战略是,即使在低于1万美元的车型中也包含自动驾驶系统,将安全气囊和防抱死制动系统等驾驶辅助系统定位为所有车辆都应配备的标准配置。评估。特斯拉的高昂定价(8,000-15,000 美元)将 FSD 视为爱好者梦寐以求的技术,导致 14% 的接受率和大量购买者未使用。中国采用的民主化方法迅速扩大了车队规模,生成了海量训练数据,使自动驾驶能力标准化,并产生了竞争压力,迫使全行业采用。制胜的长期战略可能是将 2 级及以上级别作为标准配置,同时仅对需要昂贵硬件的 3 级及以上级别功能收取额外费用。
视觉与融合之争最终取决于关于机器智能发展路径和可接受故障模式的悬而未决的问题。纯视觉支持者认为,人类级别的感知能力足以实现完全自动驾驶,额外的传感器只是不必要的拐杖,会拖延构建真正人工智能的艰苦工作。传感器融合的支持者反驳道,人类拥有当前人工智能所缺乏的推理、直觉和情境理解能力,因此在通用人工智能出现之前,冗余感知至关重要。这场争论反映了更广泛的人工智能哲学:我们应该通过专门的架构(传感器融合)实现狭义的超越人类的性能,还是应该投资于能够与人类感知能力相媲美的通用智能(纯视觉)?两条路径都有可能实现完全自动驾驶,但在开发过程中,时间线、成本结构和安全性方面会有所不同。
这场竞争的最终结果很可能并非某一种方法的绝对胜利,而是市场根据用例、价格点和自动驾驶水平进行细分。纯视觉系统服务于成本敏感的L2+消费级车辆,在这些车辆中,驾驶员的监督可以提供安全保障。传感器融合则在L3+领域占据主导地位,因为法律框架要求冗余,且安全裕度高于监督系统。不同地区青睐不同的方法:中国制造商的传感器融合技术在国内市场部署中处于领先地位,特斯拉的纯视觉技术在美国市场主导着监督自动驾驶,而欧洲豪华品牌则在高端市场追求传感器丰富的L3级技术。到2030年,“哪种方法胜出?”这个问题可能将变得毫无意义——答案是“两者兼而有之,以不同的价值主张服务于不同的细分市场”。那些及早认识到这种细分并为每个细分市场开发适当技术组合的公司最终将比单一方法的纯粹主义者获得可持续的竞争优势。