“端到端”风口已至?
- 来源:汽车纵横 smarty:if $article.tag?>
- 关键字:自动驾驶,模型,团队 smarty:/if?>
- 发布时间:2024-09-20 14:58
文 / 本刊记者 施芸芸
从概念兴起到深入布局,“端到端”几乎已经成为了车企近阶段在自动驾驶领域的重点工作。8月初,有媒体报道称,小鹏汽车近期对自动驾驶部门进行了相应的组织架构调整,新设AI模型开发、AI 应用开发、AI 效能开发三大板块职能,旨在加速AI 能力进化和组织AI 化转型。无独有偶,6 月蔚来也被曝重组了智驾团队,将感知和规控团队合并为大模型团队,而理想汽车也在7 月成立了“端到端自动驾驶”实体组织,规模约200 人。
“‘端到端’采用神经网络作为信息传递的桥梁,通过数据驱动实现全局优化,理论上性能上限更高,可以更好地处理复杂场景,避免了模块化系统中各部分独立优化可能带来的整体性能损失,并具备利用数据闭环进行快速更新的能力,获得了国内外众多主机厂和供应商的青睐,有望推动智能驾驶向更高级别的发展。”清华汽研院智能网联中心技术总监孙辉在接受采访时表示,2024 年已经有一些企业宣称在测试或量产“端到端”方案,预计在2025 年会迎来更大的爆发。随着技术的进步,相信“端到端”将在不久的将来重塑智驾格局。
忽如一夜春风来,家家都上“端到端”
有的人因为相信才看见,例如特斯拉,而有的人则因为看见了才相信,例如近期公开“端到端”自动驾驶方案上车规划的一众车企。
其实“端到端”并不是一个新词,早在2016年,英伟达就提出采用单个神经网络来实现“端到端”的自动驾驶,但只完成了小规模的demo验证。直到随着Transformer 网络架构和车端算力(逐步可支持0.1B~1B 级参数量网络运行)的提升,One Model 的“端到端”方案才又重新回到人们的视野中。
特斯拉成为了这一时期“第一个吃螃蟹的人”。2023 年8 月,特斯拉在公布FSD V12 版本时正式宣布引入了“端到端”技术。今年3 月,特斯拉开始在北美地区大范围推送FSD V12。这套智驾系统的优秀表现,让从业者和用户都迅速感受到了智能化技术所带来的驾乘体验提升,因此也在一定程度上推动了“端到端”自动驾驶技术路线在短期内形成了大范围的共识。
同样作为“端到端”技术的忠实拥护者,小鹏积极跟进,先是在今年1 月30 日提出未来将实现“端到端”模型全面上车,随后在5 月20 日宣布开始向用户推送基于“端到端”大模型的智能驾驶和智能座舱系统。到了7 月30 日,小鹏汽车官宣将向全球用户全量推送AI 天玑系统XOS 5.2.0 版本,同时提出在2024 年四季度可以实现“门到门”的智能驾驶,即居住小区停车场到单位园区停车场的高级别辅助驾驶。
其余企业也纷纷行动起来。4 月,华为推出了采用“端到端”架构的ADS 3.0,并已搭载于6月上市的享界S9;在北京车展上,元戎启行展示了基于DeepRoute IO 的“端到端”解决方案,商汤绝影则推出了面向量产的“端到端”自动驾驶解决方案“UniAD”;地平线在5 月发布了SuperDrive 全场景智能驾驶解决方案,使用了动态、静态、Occupancy三网合一的感知“端到端”架构;7 月5 日,理想宣布,向全量理想AD Max用户推送“全国都能开”的无图NOA并发布基于“端到端”模型、VLM 视觉语言模型和世界模型的全新自动驾驶技术架构;7 月27 日,蔚来正式发布智能驾驶技术架构,并表示该技术架构在算法层升级引入了自研的蔚来世界模型的“端到端”架构。
原教旨定义的“端到端”仍在路上
有意思的是,尽管“端到端”已经被公认为自动驾驶技术发展的大趋势,但业界对其定义仍存有争议,一位国内一线智驾车企工程师甚至在接受媒体采访时这样说道:“目前为止,我没有听到任何一家做到了(原教旨定义下的)‘端到端’。没有任何一家,包括特斯拉。”
对此,孙辉提出,“端到端”是一种通用的技术类别,根据不同应用具有不同的含义。目前行业内普遍认可的“端到端”技术主要分为两类,一类是感知规划“端到端”,以多传感器数据为输入,行驶轨迹规划为输出,该路线继承自BEV、OCC,有良好的产业量产基础和较低的运行算力需求,是最主要的路线。第二类则是基于多模态大模型(VLM、MLM)的“端到端”,利用大语言模型的知识底座,通过微调的方式适应自动驾驶场景理解和决策。孙辉指出,这类大模型由于参数量过大的原因,无法用于实时推理,但对corner case的理解能力更强,决策更拟人化,可作为有效补充。
根据前不久发布的《端到端自动驾驶行业研究报告》(以下简称《报告》),在目前国内“端到端”技术路线的主要“玩家”中,商汤绝影和小鹏汽车跑得比较靠前。其中,小鹏的“端到端”大模型有三个组成部分,包括神经网络XNet、规控大模型XPlanner和大语言模型XBrain;而商汤绝影的“端到端 UniAD”属于“模块化端到端”类型,与决策规划模型化的技术架构(即“两段式端到端网络”)相比,不需要对感知数据进行抽象和逐级传递,实现了感知决策一体化和系统的联合优化。
不过,诚如上述车企工程师所说,几乎目前市面上所有的“端到端”技术都留有“兜底规则”,也就是说,系统中的规控大部分仍是混合架构。“目前看来,‘兜底’是非常有必要的事情。”孙辉告诉记者,在“端到端”模型没有达到足够可靠的时候,可能需要基于规则的方法和“端到端”模型同时工作。一方面,这在资源分配上是可行的,因为传统方法多依赖CPU 资源,而端到端依赖GPU/NPU资源;另一方面,智驾研发企业并不适合在没有成熟基于规则的方法之前,跳过该环节直接开发“端到端”方案,这样会降低系统的可靠性。他认为,“兜底规则”或基于规则的安全保障,将在很长的时间内都是一个必备的模块,随着技术的发展,其触发几率会持续降低。
上车制约因素:可靠性、适应性和实时性
尽管像孙辉所说,今年就已经有一些企业宣称在测试或量产“端到端”方案,预计在2025 年会迎来更大的爆发。但对于现在的智能驾驶汽车企业而言,要实现“端到端”的量产上车仍需面临可靠性、适应性和实时性等因素的制约。
在孙辉看来,企业会根据所依托的控制器硬件选择合理的模型规模,其主要挑战在于当网络规模受限时,如何训练出可靠性高、泛化能力好的模型。借鉴其他领域的经验,如采用大规模数据训练(如SAM)、教师模型蒸馏、人工反馈的强化学习(RLHF)等,还需要行业内更多的探索尝试。
在这一过程中,数据和算力就成为了摆在车企面前的两大难题。理想汽车总裁、总工程师马东辉在今年第一季度财报电话会上直言,特斯拉的“端到端”大模型需要大量的数据和训练算力,“这不是所有车企都有能力和资源做到的”。
另一大挑战是“端到端”如何处理cornercase。孙辉指出,在升级为大模型之前,边缘场景对“端到端”算法来说依然是挑战,因为边缘场景在数据中呈现出极度稀疏的状态,很难被有效学习。目前行业里的一种解决方法是单独添加标签,采用类似Focal Loss 的方式提高其贡献,另一种则是采用合成数据来人为制造边缘场景用于学习。
“特斯拉在2021 年和2022 年年底的AI Day上分别公布了BEV 和Ocuupancy Network 的技术架构,而国内车企开始OTA 基于BEV/ Occupa-ncy Network 的功能普遍在2023-2024 年,与特斯拉的研发进度差大概在1.5~2年。”《报告》认为,参考前述追赶进度, 国内自动驾驶公司的模块化“端到端”方案上车量产时间可能会在2025 年。
孙辉对此抱持相同的观点。“在已有技术的基础上,或多或少地添加‘端到端’的方案具有较好的可行性,OTA 技术也为后续持续更新奠定了基础。”孙辉表示,随着技术的进步,有理由相信“端到端”将在不久的将来重塑智驾格局。