高阶智驾为啥要卷“端到端”?

  • 来源:电脑报
  • 关键字:高阶智驾,系统,模型
  • 发布时间:2024-06-22 09:47

  ■ Intoweb

  今年, 智能驾驶的发展突飞猛进, 业界关注的重点从高速NOA、Transformer、BEV 在特斯拉FSDV12 推出和小鹏AI 天玑OTA 后就快速转向“无图方案”和“端到端大模型”。那么基于端到端的智驾大模型与之前的智驾系统有何不同呢?

  传统智驾系统

  传统智驾系统采用的是“模块化”路线,它将自动驾驶系统划分为三层:环境感知层、决策规划层和控制执行层。每一层还可以划分为不同的模块,每个模块由更多子模块组成,模块之间是解耦的,这些模块中有很多不同的算法结构。模块中执行的规则有不少是工程师一条条人工添加的。信息在各个模块间逐层处理并向下传递,在传递过程中不可避免会产生误差和信息丢失,并且这种误差会向下级传递和积累,最终影响到智驾的整体效果。

  其次,为了应付复杂的环境必然需要在大量模块中设定大量规则,这导致整个系统非常庞杂。何小鹏就指出,较为稳定的传统量产智驾系统,需要等效10 万条人工定义的规则。即使这样仍然无法超越L2,体验也是参差不齐。而一个无限接近人类司机的自动驾驶系统,经过测算大概等效于10 亿条规则。

  因此,基于传统算法的智驾会面临三大挑战:开城瓶颈(无法适应快速变化的市内道路)、体验瓶颈、成本瓶颈。

  什么是“端到端”?

  对于“端到端”的定义目前各家厂商并不统一,按最严格的定义是车辆将传感器采集到的信息,直接发送到一个单一大模型,大模型处理后,输出自动驾驶汽车的驾驶命令。换句话说,基于AI 神经网络,新型的高阶智驾系统在海量人工驾驶数据的训练下,会自主学习、快速迭代,模仿人类的驾驶习惯。但我认为“端到端”的本质意义是它让系统变成一个整体,最大限度地降低信息损失误差的问题。这样,也能避免“模块化”中“穷举法”边际效应骤减的问题,因为AI 能够自主不断优化、升级,具备更高的迭代效率,有效降低维护、迭代成本。

  比如根据严格定义,特斯拉目前的FSD V12“端到端”系统至少保留了感知和规划两个大的神经网络模块,因此还不能算是完全体的“端到端”。但是,这两个模块是以共同的损失函数去训练的,上一个环节的优化迭代会影响到下一个环节的优化迭代。这相当于两大模块遵从同样的“价值观”,因此这又符合“端到端”的本质,因此特斯拉FSDV12 也符合“端到端”的意义。

  同样,小鹏汽车也非一体化“端到端”,而是分为神经网络XNet(感知)、规控大模型XPlanner(决策规划与控制执行)和大语言模型XBrain。这种新型智驾系统解决了“模块化”路线面临的诸多问题,大幅度降低了“子模块”的数量,以及需要“穷举法”来人工敲写代码制定规则的方式,将“AI 大模型”融入智驾系统中,大幅提升智驾能力的迭代效率。

  “端到端”的问题

  FSD 利用类似ChatGPT 的方法去观看大量人类驾驶的视频,让机器模仿人类开车。期望由图像信号驱动神经网络直接获得控制信号,用这种方式代替传统的启发式Hard Coding。目前的FSD 只在规划模块从原来的启发式树搜索变成基于自我监督学习的深度神经网络。并且为了保证自动驾驶系统的鲁棒性,原始数据可能仍然需要部分的人工标注。

  另外,大量数据是训练成熟AI 的关键,越大的厂商拥有的真人驾驶数据越多,大厂的训练迭代必然更快,因此“端到端”更加适合大厂。

  自动驾驶不是聊天机器人,它的目标是不能出现一点错误。但“端到端”依赖的深度学习神经网络是一个黑箱,工程师们只能依靠推测和实验来调整参数,没法做到精确的控制。至少,以现阶段人类的科技水平,用一个单一的大模型完美处理驾驶中遇到的所有问题是不现实的。

  但从目前“端到端”几天就能迭代一次的进度来看,用“端到端”来实现L3 或L4 级别的自动驾驶是完全可能的。

关注读览天下微信, 100万篇深度好文, 等你来看……