全球实时：大模型下，自动驾驶企业开始取经特斯拉

微信公众号：数智前线
2023-05-22 15:53:10

2019年，狂人马斯克一句“Lidar is a fool’s errand”，直接让自动驾驶路线一分为二，特斯拉如独行侠一般，坚持探索起自己的纯视觉路线，其余绝大部分玩家则朝着激光雷达的方向一路前行。尤其是在发现高精地图可为自动驾驶提供超视距信息后，“激光雷达等多传感器融合+高精地图”的技术路线更是成为大部分企业的普遍选择，以寻求兼顾成本和安全的*解。

根据中金在《人工智能十年展望（三）：AI 视角下的自动驾驶行业全解析》中的定义，视觉主导与激光雷达技术路径之争，从技术角度看，本质上是AI算法+硬件逼近人脑能力的速度，与激光雷达等可选硬件对数据量、算法弥补程度及其降价速度之间的竞争。

早期，大家在各自路线上都有进展。不过，随着自动驾驶企业们从高速NOA（自动辅助导航驾驶）走向城市NOA，曾经被视为“香饽饽”的高精地图开始日渐失宠，反而是特斯拉以摄像头与各种传感器作为硬件，背后重算法的路线慢慢受到重视。

(相关资料图)

一些企业也从前两年和特斯拉的路线较劲，纷纷转到了“重感知，轻地图”的模式。与此同时，一种全新的感知范式——BEV+Transformer，已经从特斯拉迅速扩延到更多自动驾驶企业的蓝图规划中。

而随着ChatGPT的骤然爆火，生成式AI大模型正在给自动驾驶领域带来一些新的变量和启示。

1、自动驾驶圈“去高精地图化”

2021年年中，正在冲刺港股双重上市的小鹏汽车，斥资2.5亿元收购了一家进入破产程序的地图公司智途科技。这家公司2019年的营收只有738万元，能得“金主”小鹏看中的原因在于，其拥有堪称“稀有”的导航电子地图制作*测绘资质。这是入局高精地图的门槛所在，过去二三十年间，国内也不过30多家企业获得过这一资质。

高精地图和激光雷达一向被喻为“自动驾驶的两根拐杖”——前者负责开路，提高规划能力；后者负责避障，用来增强感知能力。为此，高精地图一直被视作自动驾驶汽车基础设施的一部分，是“兵家必争之地”。

此前，小鹏虽与高德合作，可采用后者提供的高精地图，但地图的更新要依赖高德的节奏。自己拥有一家高精地图公司就不一样了。

这是当时绝大多数车企的共同想法。吉利旗下的亿咖通、上汽控股的中海庭都曾拿到*测绘资质，长城汽车、蔚来汽车、小米汽车等，也都试图寻求过相关资质的收购。但“牌照” 这东西终归僧多肉少，因此也有大量自动驾驶企业通过与图商合作，将高精地图装上了车，一如理想2021年与高德地图的合作，又如蔚来2022年与腾讯在高精地图领域的合作。

不管是通过哪种方式，高精地图的确在高速公路、园区等相对封闭的场景中广泛应用起来。其效果也十分显著，绝大多数车企都实现了与特斯拉导航辅助驾驶类似的功能。例如小鹏用于高速公路的智能导航辅助驾驶NGP、蔚来的NOP、理想的NOA、长城的NOH，以及广汽埃安的NDA等。

佐思汽研发布的《2022年高精度地图行业研究报告》显示，2022年上半年，中国乘用车前装高精地图装配量超10万辆，高精地图已从选配走向标配，如理想L9、蔚来ET7、高合HiPhi等。

高精地图在高速公路等封闭场景推进迅速，但当它来到城市，情况出现了180度大转弯。从2022年下半年开始，随着对城市自动辅助驾驶的探索持续深入，自动驾驶圈去高精地图化的动作愈发明显。

2022年4月，长城旗下毫末智行提出要做“重感知、轻地图”的城市智能驾驶，开始降低方案中高精地图的权重，乃至做到无需高精地图；同年下半年，华为余承东表示：“自动驾驶未来不应过分依赖于高精地图、车路协同。”尽管华为本身正是具备*测绘资质的企业。

等到2023年上半年，“去高精地图”运动更加热闹。华为4月上市的问界M5和问界M5 EV，新增的高阶智能驾驶版本不依赖高精地图，主要通过车端融合感知来进行环境识别。按照规划，至2023年三季度，问界 M5 智驾版 HUAWEI ADS 2.0 将在 15 城实现不依赖高精地图落地，至四季度，这一数字还将进一步扩展至45城。

何小鹏在1月的小鹏汽车全员会上提出，小鹏2023年的X-NGP辅助驾驶要抛掉高精地图。李想在内部表态，理想汽车不依赖高精地图的端到端训练城市NOA导航辅助驾驶，将会在2023年底开始落地。而元戎启行、智行者、地平线等多家自动驾驶公司也都顺势发布了不依赖高精地图的自动驾驶方案和产品。

至于百度，虽没有完全放弃高精地图，但也在尝试减少对高精地图的依赖，于近期推出了城市域领航辅助驾驶Apollo City Driving Max，搭载“轻量级高精地图”，据称比起行业通用的传统高精地图要“轻”近80%。“我们判断，完全不依赖高精地图的路线可以走通，但走通的时间*不是今年或者明年。” 百度集团副总裁、智能汽车事业部总经理储瑞松表示。

高精地图路线由热转冷背后，是高级别辅助驾驶从高速场景驶入城市后，不利因素被进一步放大。

不同于普通导航地图，高精地图是给机器看的，定位精度可达到厘米级，且蕴含信息丰富，除了会记录道路形状、坡度、曲率、方向等道路数据，还能提供车道线类型、车道宽度等车道级别的导航信息，以及诸如交通标志、高架物体、防护栏等车道周边的3D轮廓信息，从而更好地帮助车辆完成行进规划。但这恰恰也意味着高精度地图本身更新周期漫长、成本高昂。

根据《智能网联汽车高精地图白皮书》，采用传统测绘车方式，分米级地图的测绘效率约为每天每车500公里道路，成本为每公里10元左右，而厘米级地图的测绘效率约为每天每车100公里道路，成本可能达每公里千元，一天就是十万元级别的费用。

这放在之前，大家主攻的是中国城际高速公路和城市快速路，总的里程数加起来也就30万公里，尚且可以努力一下，但全国的城市道路却有近1000万公里，再加上城市道路更新变化又快，升级改造频繁，地图的鲜度和成本，都是巨大挑战。

更何况，*测绘牌照还存在有效期，到期后需要复审，而国家对于地图测绘资质的监管却在收紧。2022年，也即小鹏曲线救国拿下“牌照”的第二年，智途科技没能通过*测绘资质复审，相当于“买了个寂寞”，也一定程度上拖累了小鹏汽车城市 NGP的落地节奏。

同样未能通过资质复审的，还有上汽旗下的中海庭、东风投资的立得空间等。有数据统计，2019年相关部门将获得资质的图商队伍扩容到了31家，但到2022年，只有19家单位通过复审，近三分之一被淘汰。

即便是选择与图商合作，由于高精地图审图非常慢，企业受到的掣肘也多，比如此前华为、小鹏的城市辅助驾驶之所以仅在广州、深圳和上海开放，原因之一就在于只有这几个城市的地图通过了审核。

不过，要想在不依赖高精地图的情况下，实现城市自动辅助导航驾驶也并不是一件容易事儿。为此，不少自动驾驶企业开始向特斯拉“取经”，纷纷转向一种全新的感知范式——基于Transformer的BEV智驾大模型。

2、特斯拉的一次量子式跃升

2016年5月，一辆开启了自动驾驶模式行驶的Model S在美国佛罗里达州的高速上行驶，却在岔路口与一辆垂直方向开来的白色厢式货车相撞，40岁的司机Joshua Brown当场死亡。这是全球首例被曝光的自动驾驶事故，瞬间就将“当红炸子鸡”特斯拉推上风口浪尖，也直接加速了它与自动驾驶方案提供商Mobileye的分道扬镳。

特斯拉很早就有甩开Mobileye的想法，毕竟，Mobileye的芯片和自动驾驶软硬件解决方案是业内公认的“黑盒子”，对整车厂来说并不够友好。例如理想，就一度为了解决黑盒子问题而自行在Mobileye 的前视摄像头旁增设一个摄像头，专门采集道路信息，用于辅助驾驶系统的算法训练和优化。

马斯克不喜欢Mobileye，但人在屋檐下不得不低头。直到2015年，英伟达入场自动驾驶，特斯拉才有了Mobileye之外的另一个选择。更重要的是，短暂牵手英伟达的同时，特斯拉的自研之路也在紧锣密鼓地进行，感知数据、算法、芯片、计算平台等都是它在布局的。

这期间，大量的人才被挖进特斯拉，这家公司的自动驾驶团队Autopilot，在顶峰时一度拥有300多名工程师（不包括1000多名数据标注员），其中200人专攻软件，100人专攻硬件和芯片。团队的负责人们是世界*技术大牛，包括前AMD首席架构师Jim Keller，前苹果芯片团队核心成员Pete Bannon，编程语言 Swift 主要开发者 Chris Lattner、OpenAI首席科学家Andrej Karpathy……

源源不断的顶配人才和大量真金白银的投入，让特斯拉以远超同行的速度迅速完成了从合作到全栈自研的转变。

*亮相的是硬件。2019年4月的自动驾驶日上，特斯拉发布第三代自动驾驶硬件平台HW 3.0，搭载的正是其自研芯片，总算力达 144TOPS，是英伟达Drive Xavier理论性能值21TOPS的7倍。HW 3.0每秒可处理2300帧图像，较搭载英伟达芯片的 HW 2.5提升21倍，单体成本也较HW 2.5降低20%。

但特斯拉的FSD （Full Self-Driving，完全自动驾驶）功能真正迎来脱胎换骨的变化要到两三年后。2021年7月10日，特斯拉正式向约2000名美国用户推送“完全自动驾驶”FSD Beta V9.0版本。该版本的核心变化在于，其摒弃了毫米波雷达、超声波雷达等传感器，采用纯视觉的自动驾驶方案，仅用8个摄像头来实现城市级别的完全自动驾驶能力。

而达成这一结果的基础来自于特斯拉此前一场声势浩荡的算法重写，尤其是感知算法的重写。

2020年8月，马斯克在推特上首次提及，特斯拉正在重写FSD的基础架构，并称这将是一次“quantum leap”（量子式跃升）。一同被公布的，还有其正在开发中的全新用于神经网络训练的超级计算机 Dojo。

重写的原因在于，马斯克认为Autopilot过去被困在一个局部*值（Local Maximum）里，原有软件架构下，其处理的数据都是不含有时间坐标的 2D 图像数据。但行车是在三维空间中进行的，甚至更好的自动驾驶效果还需要对被遮挡的部分做一定预测，而这给特斯拉的自动驾驶系统提出了新的要求——需要能够处理3D甚至4D的数据，实现从图像级处理到视频级处理的跃迁，并最终倒逼其对基础代码及训练深度神经网络的基础设施进行重构。

不过，从2020年10月特斯拉宣布开启FSD Beta内测，到真正向外公测，仍然还有一场技术变革需要完成。

2021年8月召开的特斯拉AI DAY上，特斯拉AI高级总监Andrej Karpathy 向外展示了一项全新技术——基于Transformer的BEV感知方案。这是大模型技术首次被应用到自动驾驶行业，也是特斯拉实现纯视觉的关键所在。

在此之前，特斯拉是通过每个摄像头单独进行感知，再将不同摄像头感知到的结果进行融合。但这种方式存在不少问题，比如不同摄像头之间的信息融合困难，难以预测被大面积遮挡的物体，以及因深度估计的误差导致最终输出结果相互冲突等。

为此，特斯拉开始尝试用神经网络将图像空间映射到 BEV 空间。BEV 的全称是 Bird"s Eye View，也就是鸟瞰图的意思，是一种用于描述感知到的现实世界的视角或坐标系，相当于在车辆正上方10-20米的位置有一个直升机俯视车辆及周围环境的视角，也即所谓的“上帝视角”。

但如何将摄像头采集的2D图像提取特征后，准确投射到向量空间中去，拼接转化成BEV空间中的3D立体图景，最后生成汽车周围道路环境的鸟瞰图，依然是一个复杂问题。

Transformer的出现解决了这一难题。2017年，Transformer作为一种新型神经网络结构被谷歌所提出，并迅速演化出谷歌的BERT模型和OpenAI的GPT模型两条路线，后来大火的ChatGPT中的“T”，正是指Transformer大模型。

2020年谷歌又提出ViT（ Vision Transformer），其也开始广泛应用于计算机视觉领域。特斯拉也是在这个时候，将Transformer引入自动驾驶领域。而主导这项工作的正是2017年被马斯克从OpenAI挖到特斯拉，又在2022年7月再次离职，于今年上半年重新回到OpenAI的Andrej Karpathy。

Transformer的交叉注意力机制可以将一个序列中的不同位置联系起来，计算出序列的表示形式。这意味着它可以直接进行不同序列（指2D特征图和3D的BEV视图）之间的转换，对于BEV空间转换任务适配性较高。

而成功转换后的BEV空间内，由于坐标系相同，来自摄像头的各种图像数据，以及激光雷达、毫米波雷达等的感知数据将可以很方便地进行融合，同时还能引入过去时间片段中的数据，进行时序融合，形成 4D 空间，让感知效果更准确和稳定。

简单来说，基于Transformer的BEV感知技术，可以将车道线等道路几何信息以及人、车等动态目标全都统一到一个坐标系下，便于车辆更加准确地对道路情况进行判断。且由于BEV空间下的感知结果与决策规划所在坐标系也是统一的，因此感知与后续模块通过BEV变换也可以紧密联系到一起。

这一技术路径可以通过实时感知，将不同视角的摄像头采集到的图片统一转换到上帝视角，相当于车辆实时生成“活地图”，补足了自动驾驶后续决策所需要的道路拓扑信息，可以实现去高精地图化。

这一感知方案的提出，确立了特斯拉FSD在视觉感知领域的*地位，并在后来被无数同行学习跟进。

而这种能力还在2022年底的AI DAY上进一步得到了强化，特斯拉将BEV升级到了占用网络（occupancy network），进一步提升了泛化能力。这一技术虽也是BEV技术的延伸，但*的区别就在于系统的感知从2D变为了3D，让车辆自身置身于一个3D世界中，并在 10 毫秒内向车载计算机输出车辆周围每个 3D 位置的占用概率，并能够预测被瞬时遮挡的障碍物。

这意味着，特斯拉可以无需再纠结物体具体是什么，而只考虑体素是否被占用，就可以判断到底要不要躲避，有助于更好化解一些辅助驾驶中的Corner case（极端事件）。

3、AI大模型卷进自动驾驶

无论是BEV+Transformer，还是占用网络，从某种意义上说，其实都是特斯拉为了能彻底抛弃激光雷达，让其不至于因不装激光雷达而导致无法准确还原车辆行驶周围 3D 场景所作的努力。

不过，这样的技术现在也开始越来越多被本来走“激光雷达等多传感器融合+高精地图”路线的玩家所采用。据不完全统计，目前包括“蔚小理”在内的车企，以及百度 Apollo、华为、大疆、毫末智行、轻舟智航、小马智行、元戎启行、地平线等自动驾驶企业都在使用BEV技术。

一位行业内人士透露，到今天，BEV路线已经不是说有几家代表性企业了，而是大家都在做，“已经是必备的了”。

尤其是在去高精地图化需求明显的当下，基于Transformer的BEV感知模型更是被认为是解决城市辅助导航驾驶对高精地图过度依赖的关键技术和底气所在。

安信证券就曾在《AI大模型在自动驾驶中的应用》中判断，基于BEV技术的发展，“轻地图，重感知”将成为行业发展的主流方向。且从特斯拉感知算法迭代历程来看，未来AI大模型对城市领航辅助驾驶的赋能方向将分为三个阶段：*阶段，BEV+transformer，实现“脱高精度地图”；第二阶段，升级到占用网络，实现“脱激光雷达”；第三阶段，从感知到决策控制端到端的自动驾驶模型，有望成为未来发展方向。

事实上，国内自动驾驶公司已经公布的“脱图”计划，几乎都与特斯拉这套BEV+Transformer的技术框架相关。

据报道，小鹏汽车正是在2021年看到特斯拉引入Transformer的BEV效果之后，才真正决定去掉高精度地图，并搭建了基于Transformer的BEV视觉感知系统XNet。而在最近，小鹏P7i已经推出基于XBEV体系的高速NGP2.0，小鹏汽车自动驾驶副总裁吴新宙表示，这是基于BEV和Transformer架构落地的一个静态网络，从而实时产生高精地图的能力。按照小鹏官方说法，它已成为国内*量产 BEV 感知方案的玩家，这将让它下半年能在数十个无图城市上线XNGP功能，几乎较此前采用高精地图时的“进城速度”提升近10倍。

理想也在最近发布了最新城市NOA导航辅助驾驶AD Max 3.0，表示将于第二季度开启推送，并于年底前完成100个城市的落地。而这套城市NOA背后，使用了三种神经网络大模型算法：静态BEV网络算法，动态BEV网络算法以及Occupancy网络算法。

今年初的一场沟通会上，理想汽车CEO李想更是直言，到2024年，中高端车会出现真正基于大模型和BEV技术实现的城市导航辅助驾驶，届时将会出现真正属于智能电动车的变革时代。他判断，使用Orin 计算平台的这些企业，基本上都会在今年四季度交付最早用于测试的基于大模型的城市NOA。

无独有偶，百度 Apollo、蔚来、华为、商汤等一众厂商，甚至像地平线这样的芯片公司，也都在 BEV+Transformer上有所布局。例如华为的ADS 1.0据称已实现基于 Transformer 的 BEV 架构，而最新发布的ADS 2.0 进一步升级了GOD 网络，类似于特斯拉的占用网络算法。

百度Apollo 团队也在过去一年里，将视觉感知升级成了BEV感知，可以端到端检测障碍物、预测障碍物轨迹，以及感知道路结构，并记录下时间，形成一个带时间序列的4D空间。而商汤基于自己的视觉大模型研发的，用于自动驾驶的环视感知算法BEVFormer++，还曾在2022年Waymo 挑战赛中获得冠军。

还有一家公司毫末智行，其实早在特斯拉将Transformer引入自动驾驶的两三个月后，就已经宣布正在利用Transformer进行超大规模的感知训练，并且后期有可能将其引入到规划和控制中。

当ChatGPT的同源技术在自动驾驶领域悄然潜行了一两年后，以ChatGPT为代表的生成式AI大模型，再次给了自动驾驶领域巨大冲击。4月5日，Meta发布*用于处理机器视觉领域的图像分割的基础大模型SAM，也一度在自动驾驶领域引起较大反响。

“我觉得GPT是一个划时代的产品。”此前，在被问及ChatGPT这样的生成式大模型可能对行业带来的影响时，何小鹏称。

他说，过去自己其实一直不认为高端的L4或L5能真正到来。因为告诉车一个简单的规则后，它在碰到各种特殊情况下，做不到像一个真正的司机一样。“但GPT再往前走三年，跟车的融合会完全不一样。有了GPT之后，高阶的L4或者准L5可能在2027年到2030年之间大家就会看到。”

据悉，小鹏汽车将在今年下半年，把GPT的能力带到小鹏G6上面去。而今年4月，百度发布新一代自动驾驶云产品——Apollo Cloud 2.0，基于大模型实现了自动驾驶数据智能的搜索引擎。

商汤则宣布，他们已经在智能驾驶领域构建了感知决策一体化的自动驾驶多模态大模型，将带来更强的环境、行为、动机解码能力。同时，其视觉大模型还可以解决数据标注和Corner Case等问题。

自动驾驶公司毫末智行更是在今年4月，发布了业内*自动驾驶生成式大模型毫末DriveGPT 雪湖·海若，通过引入驾驶数据建立RLHF（人类反馈强化学习）技术，对自动驾驶认知决策模型进行持续优化，现阶段主要用于解决自动驾驶的认知决策问题，*目标是实现端到端自动驾驶。

行业人士表示，ChatGPT爆火后，生成式大模型已经成为自动驾驶领域里一个比较热的话题，大家都在讨论如何去应用它，比如用在决策规划层面，又或是用在仿真领域，来解决一些极端天气或交通场景等Corner Case的数据采集问题。

但不可否认的是，大家目前都还处于一个比较早期的探索阶段，应用在车辆的哪些方面也都还是方向性的，"相当于一个小树苗，还没有开始结果“。尤其不同于ChatGPT的是，大模型应用于自动驾驶领域一旦出错可能就是人命攸关，但大家的期待是因为“有大模型，未来自动驾驶可以像老司机那样丝滑”。

自动驾驶领域的从业者们期望大模型实现的更大意义在于，将来的自动驾驶能够成为一个端到端的模型，预测、规划、决策都在这个模型里。