智能驾驶这一块，谁搭上「端到端」谁就能上岸？

好几年以前，窦文涛把圆桌派搬上了某家车企的新车发布会，谈话间他问出了一个几乎人人都设想过的问题：

“如果一辆自动驾驶车失控了，它会选择撞障碍物，还是撞人？”

撞哪个副本.jpg

当时，关于这个问题，车企负责人给出的答案比较含糊，近似于“我们一个都不要撞”，相当于母亲、女朋友落水的话我们都要救。

实际上这个问题也确实不好回答，毕竟在手写规则主导智能驾驶的时代，没有一个程序员会写下一条代码，让一台失控的车辆主动选择碰撞对象，以换取更小的损失。而车企负责人又不能说，我们会尽量规避碰撞，至于失控后撞到哪个目标又不是我们能控制的。

当智能驾驶全面拥抱AI之后，当智驾系统具备类人的思维之后，这种寻求最小损失的博弈是不是有可能存在？或许真有可能，因为AI会让智驾越来越像人。

「端到端时代」轰然到来

二十年前的汽车广告，主打冷风空调和沙发式座椅；两三年前的智能汽车发布会，主打激光雷达和高精地图；今年的智能汽车发布会，最高频的词汇已经变成了端到端、神经网络、感知大模型、大语言模型等等。

今年，小鹏汽车发布了自家的端到端大模型架构，该架构由感知大模型XNet+规控大模型XPlanner+大语言模型XBrain三部分组成；华为发布了ADS 3.0，其端到端架构由GOD感知大网+PDP预测决策规划+本能安全网络构成。

这模型那大网的，都啥意思？

自从端到端这个概念突然空降，与智能电动汽车相关的媒体、大V都在尽力解读这个概念，主要知识来源包括企业官方素材、发布会领导讲话、智驾工程师专访等等。对于非研发人员来说，如同天书的代码肯定是读不懂了，而媒体对于新概念的学习，更像是拿“各种想象”去和专业研发人员碰，最终把颗粒度大概对齐。

所以今天我们尽量不引用官方话术和专业词汇，就通过大白话来解读这些概念，我们先从游戏的AI训练展开比较合适。

鸟的封面.jpg

《Flappy Bird》相信大家都了解，这是一款通过点击屏幕穿越管道，最终让人撞管道、上头、砸手机的小游戏。

而通过AI训练，小鸟可以很好的掌握飞行技巧，在足够大的训练量积累之下，小鸟将具备超越人脑的得分能力。

以上是一段采用「Python遗传算法」进行AI自我学习的案例，通过不断的尝试，小鸟能够通过不断试错找到获得高分的技巧。为了应对随机生成的管道障碍物，自我学习将是上限最高的一种方式。

而当游戏难度升级，维度拓宽，AI的思维也需要升级，因此更复杂的神经网络也就产生了。

神经网络2.jpg

以上是一段标准的“神经网络”结构图，由于结合不到实际所以很难理解。但如果和游戏结合一下，下面这段就很好理解了。

超级玛丽.jpg

在维度更宽的《超级马里奥》中，「神经网络」在AI训练中的意义更加凸显，因为马里奥有更复杂的任务，包括踩小怪兽、顶蘑菇、吃蘑菇、避免跌落悬崖等等。

如图右上角所示，马里奥关于生存、得分、过关的需求最终通过8个控制按键来输出，“动机与输出结果”所形成的这个密密麻麻的玩楞就是「神经网络」了。之所以形成网络，是因为马里奥不能用单一动作解决各种问题，而8个控制按键的不同动作为无规则、高机动性的随机组合，于是输入端与输出端之间就产生了这样一个网络。

再进一步解释什么是端到端和神经网络的话，人类本身正是它们的最高体现。

比如我们见到地上有一捆钱，我们不会纠结先弯腰还是先伸手，我们大脑自带的神经网络会驱使我们做出一套非常复杂的动作：奔跑、弯腰、捡钱、藏起来。多线程动作协同完成互不冲突，从感知到一捆钱到捡起来仅由一个端完成。

在此我们可以把整个人看作一个端，不必把人体理解为大脑、眼睛、肢体、骨骼等独立的部分的缝合体。

而说回智能驾驶，凭借多传感器冗余+手写规则的技术虽然能做到很强，但也无异于将人拆分成很多个部分，一定程度上相当于人捡钱都要先蹲好、再弯腰、再伸手，多个流程之前存在信息损失。而端到端就不同了，办事只需要一个动机和一个解决方案，这也如同端到端的英文名称——「end to end」。

条条大路通罗马尼亚

端到端智驾的特点，就是能通过学习“人类成熟驾驶习惯”来获得进化。用车企的话术说，“我们会不断喂给系统视频让它学，通过大量积累，它就能非常拟人。”

那如果把“人类危险驾驶习惯”喂给系统，它是不是也能学会？那还用说，当然能学会。

如果把大量“行驶遇到斑马线有行人”的视频喂给系统，系统就能轻易的学习到一条知识：“有的情况下”需要停车等待。

但是，“有的情况下”具体指什么，系统完全有可能理解错。比如系统可能会认为，见到斑马线就应该停车，并不是因为斑马线上有行人所以需要停车；另外，在斑马线前停车，还可能是因为遇到了红灯，系统就不一定能Get到。

AI很可能学到你不想让它学的，即便是喂给它大量“人类成熟驾驶习惯”，它仍然有可能学个牛马。扣回开篇所说的，如果不加以约束，系统完全有可能通过学习，做出主动选择碰撞对象的决策。

这也是为什么，同样一个端到端的大方向，不同车企玩出了百家争鸣的感觉，而没有车企去做完全类人的「One Model端到端」。

华为ADS.jpg

华为ADS 3.0端到端架构图

在华为ADS 3.0中，GOD大网能识别异形障碍物，能够深度感知道路结构和场景语义，对物理世界具有全面的理解能力；PDP预测决策规控与规划网络的加持使决策效率大幅提升，通过端到端模型能够处理极端复杂的路面环境，大幅提升ADS模型的类人驾驶能力。

其中，本能安全网络是非常重要的一环。根据官方描述，本能安全网络类似于人的皮肤触碰到火苗，会本能的退缩。

在端到端架构天马行空的决策中，ADS 3.0的本能安全网络将“掐”掉不能执行的部分。

华为ADS 3.0：自主通过闸机

华为ADS 3.0：无保护左转

前段时间，搭载华为ADS 3.0的享界S9实现了“车位到车位”智驾，系统能够自主完成从地库到公路再过闸机、过环岛、掉头、自动超车、无保护左转，上下车自己开，下车自己停等一系列高阶操作。

几年前的“HI版”车型其实已经做到了类似自动超车、无保护左转这样的高阶操作，而在端到端时代，华为ADS未来得泛化理解能力还将不断提升，拟人化也将不断提升。

小鹏汽车端到端大模型示意图

小鹏汽车的端到端架构由神经网络XNet+规控大模型XPlanner+大语言模型XBrain组成，其中AI大语言模型XBrain架构类似大脑，善于泛化处理复杂及未知场景；规控大模型XPlanner像小脑，通过海量数据训练不断实现拟人进化；大语言模型XBrain能够深度理解各种令行禁止、快慢缓急的行为指令，进而做出拟人的决策。

尽管小鹏的端到端架构没有像华为ADS 3.0一样提出“本能安全网络”的概念，但实际上这种模块化的端到端架构一样起到约束作用，不会将决策完全交给AI。

理想汽车端到端架构示意图

理想汽车提出了端到端模型+VLM视觉语言模型+世界模型的方案，此外理想汽车还提出了“快系统与慢系统”的概念。

在理想发布的端到端概念中：

1、端到端模型主要用于处理常规驾驶行为，传感器输入到行驶轨迹输出，只经过一个模型，信息传递、推理计算、模型迭代更高效，驾驶行为也更拟人；

2、VLM视觉语言模型具备强大的逻辑思考能力，能够理解导航地图、复杂路况和交通规则，以应对未知场景。同时，系统将在基于世界模型构建的场景中进行学习和测试。构建的测试场景，既符合人类世界的真实规律，也具备强大的泛化能力。

新架构还将具有「快系统」与「慢系统」：

「快系统」：善于处理简单的任务，类似人类的直觉，应对覆盖95%的常规场景。

「慢系统」：类似人类深入的理解与学习，形成复杂的逻辑和计算，用于解决复杂未知的5%场景。

快系统与慢系统配合，目的在于确保大部分场景下的高效率，和少数场景下的高上限。

微信图片_20240911111505.png

对于公众甚至是媒体来说，端到端都是一个很新的概念，但业内人士认为这个概念至少已经出现了5、6年以上的时间。

早期，端到端几乎没有实际上车的可能性，而随着大语言模型的引入，端到端的通用识别能力已经可以突破，不可能已经变成可能。在端到端架构中，大语言模型具有非常高的上限，智驾系统既可以越来越具备接近人脑的思考方式。

目前，我们还没有看到绝对纯粹的端到端智能驾驶架构，如上所列的案例中可见，目前车企会对端到端智驾进行必要的约束。但由于AI自我训练机制的介入，我们还是可以确认，以端到端为架构的智能驾驶有难以估量的前景。

犄角旮旯副本.jpg

说一千道一万，智驾全面拥抱AI，还是为了突破最后1%甚至0.01%的极端场景，业内人士称之为「corner case」。

以前，智能电动车企谈黑盒色变，因为在手写规则时代，采购一套“不可解释”的黑盒是一套快速达到行业平均水平，但后续升级受限的方案。而兜兜转转一番之后，实际端到端智驾所追求的正是打造一枚黑盒，为了突破极端场景，盒子里的规则是否能解释已经不是重点，重点是只有让智驾更类人，极端场景才可能被攻破。

智能电动车企想跳过原始积累阶段，一步进入端到端也是伪命题。以特斯拉FSD为例，软件的每一次迭代并不会摒弃此前的积累。当前，V12以后版本的FSD在美国本土已经展现出很强的类人驾驶能力，而在高速等场景中V12系统存在降级为V11的情况，但显然随着系统不断迭代，FSD将逐步提升端到端的占比，逐步将规则代码取代。

尽管现在高喊端到端智驾的车企有一大票，但很显然不是搭上端到端，就能成事。一方面，已经有深厚积累的车企有更大的空间逐步转型，让AI取代手写代码；另一方面，谁更能适应马拉松，在健康运营的条件下持续吃透数据、打造数据闭环，谁才能真正把端到端的意义做出来。

邦点评

上一阶段，激光雷达几乎是高阶智能驾驶的唯一代言人，但咱也见过搭载4颗激光雷达的车型还没上市就折了。目前，视觉感知+AI的智能驾驶路线重回主流，采用激光雷达的方案也不再追求激光雷达的数量，最具代表性的就是华为ADS自从进化到2.0之后，激光雷达就由3颗变1颗了。

多模块化的端到端智能驾驶已经以AI为核心，而数据本地处理和云端计算的需求也来到的新高度。在手写规则时代，智驾数据多到算不过来，而在端到端智驾时代，AI能够大幅度简化数据学习的人工成本，但智驾确来到了自发追求向上、主动希望获取更多学习机会的阶段，因此智驾更加是一场马拉松，智驾的研发也将演化成更漫长、更学无止境的过程。

在端到端智驾的时代，肯定不是谁搭上端到端谁就上岸，而是谁能更好的吃透数据、学习得更深，谁才能在难度升级的智驾赛道中跑出差距。