朱戈:智驾研评——组合驾驶辅助系统在城区环境下的功能表现评估研究
2025年7月10-12日,2025中国汽车论坛在上海嘉定举办。本届论坛主题为“提质向新,智赢未来”,由“闭门峰会、大会论坛、技术领袖峰会、多场主题论坛、N场行业发布、主题参观活动”等15场会议和若干配套活动构成,各场会议围绕汽车行业热点重点话题,探索方向,引领未来。其中,在7月12日上午举办的“主题论坛八:智数赋能,‘智’检之道——汽车测试赋能产业高质量发展”上,上海机动车检测认证技术研究中心有限公司智能出行检测中心副主任朱戈发表精彩演讲。以下内容为现场演讲实录:
我今天汇报的题目是《智驾研评——组合驾驶辅助系统在城区环境下功能表现评估研究》。
这个项目由我们上海机动车检测认证中心发起的,是我们前瞻技术部的张帆博士牵头负责。我们在去年12月份时候启动这个项目,有一个背景,去年下半年时候行业和用户对智驾的讨论比较火爆,不管企业和企业之间还是自媒体和自媒体之间,对于各家智能驾驶功能的表现到底谁好谁坏、可用还是好用,有激烈的讨论。都说自己第一梯队,第一梯队都快装不下了。一些行业头部企业,就找到我们沟通这个事,能不能从第三方国检的角度客观的评估一下。
所以我们就启动了《智驾研评—组合驾驶辅助功能全生命周期的研究》这个项目,主要聚焦组合驾驶辅助城区道路表现评估。之前很多评测更多聚焦单个场景的安全评估,但是我们想对组合驾驶辅助功能做一个长期的综合性评估。我们的主要目标是为客户选择和使用智能驾驶提供指南,提升用户对组合驾驶辅助功能接受度和信任度,培养用户的安全使用习惯,为行业建立公平的评测体系,为企业提供一个公平主客观量化评价框架,收集产品数据,同时做一些评估。
我们组建一个技术监督委员会,初始由14家单位构成,建立了定期的闭门会议机制,开设了智驾研评这个公众号,用于信息的发布,感兴趣的可以关注一下这个公众号,我们可以在这个平台做更多交流。
我们认为,评价一个好用的组合驾驶辅助功能,核心要回答几个问题,拟人性、适应性、一致性。大家都说自己的组合驾驶辅助更像人或者比老司机开得还好,怎么证明这套系统的拟人性,需要一套评测体系。一致性评估也是一样,大家OTA比较快,每个版本会给客户带来新的体验,是不是真的带来性能提升、是不是都能给用户信心同时不带来新的安全风险。还有系统的适应性,以前大家还提开城,成熟一个城市开放一个城市,现在也不怎么提了,那组合驾驶辅助系统在不同城市会“水土不服”么?我们启动这个项目就是为了回答这些问题。
基于技术委员会的讨论,以及企业的反馈,我们在目前国内一些比较优秀产品中首批选择了4台车作为我们观测对象,对它在不同城市、不同道路、不同交通流量、OTA前后表现做评估。包括赛力斯的问界M7,作为鸿蒙智行系列的代表;包括智己LS6,作为Momenta系列的代表;还有理想L6,理想在向端到端的算法架构切换过程中动作非常快;还有小鹏P7+,小鹏很长时间里都是智驾产品的头部代表,保持着很高的行业关注度和用户认可度。
我们目前整个评估已经做两期。第一期评估报告2025年1月份,那次有十几家企业参与了讨论,大家对结果、置信度、客观性有一定认可。我们2025年6月份完成第二期评估,这次参与的企业增加到了28家,应该说是体现了企业对我们智驾研评的关注和认可。目前两期覆盖两个智驾OTA版本;城市我们选择了上海、苏州、杭州、广州、深圳、东莞等6个城市;分别平峰、高峰、白天夜间等四个组合时段;讨论制定了50条不同路线;每台车差不多500公里的有效里程。目前总共分析了3000多个有效视频片段,将近1000多次路口通行、160多次分合流以及80多次驾驶员干预安全事件。通过这些数据,对四款车的城区NOA功能表现做了一个综合性覆盖。我们接下来看一下数据分析的情况,
前面提到,智驾研评的专家们设定了三个维度指标:
第一,拟人性,系统跟经验丰富的驾驶员开车相比,安全、舒适、效率是不是一样好。
第二,适应性,系统在不同城市、时间、环境、场景下是不是能保证安全高效完成驾驶任务。
第三,一致性,系统在不同版本是不能保持一致性,新版本是不是有提升,有没有引入新的安全问题。
我们目前数据分析和核心的结果都是发布在右上角智驾研评公众号上面。整个完整评估报告中包括参评数据整体规模、覆盖城区环境道路结果、交通场景和交通复杂度典型特征分布。
报告的核心是组合驾驶辅助城功能在各场景下各个子功能性能表现评估。这个评估不仅是同一个时间或者城市、场景纬度下4个代表车型组合驾驶辅助性能的横向对比表现,同时也覆盖了同一个车型在不同评价纬度、不同城市、不同时间节点、不同OTA版本上面表现,应该来讲非常完整的。
在左下角的不同城市类型分布里面,大家重点关注这个橙色部分。大家看橙色部分,我们定义这个场景或者道路环境比较复杂的,我们原来理解自己天天开车,好像没有那么困难,但是当我们非常仔细做片段的切割、交通场景定义分析时候,整个复杂场景占比还是不少的,将近三分之一。再加上高峰时段密集交通流和夜间、雨天的影响,做好城区组合驾驶辅助功能还是非常有挑战性的。这能解释为什么去年有些企业完成高速领航辅助功能开发,面向城区大规模量产遇到挑战、挫折。
这个图统计了我们组合驾驶辅助功能在500公里的测试里程里面遇到什么事情,跟车这是最典型的,还有路口直行、变道、避让、路口右转、路口左转、分车流、掉头与超车。合计有2万多个组合场景需要我们的系统做出及时合理的处理。我们看一下具体的评估结果。
连续运行能力。通俗一点,就是能不能做到车企宣传的“零接管”。我们统计下来,4个车型差不多4到6公里样子就需要一次干预。具体看某个车型的表现,大家看右边的图,前面两个,掉头场景和环岛通行场景,这两个场景确实有挑战,这两个场景的成功率比较低。这两个拿掉之后,后面分合流的场景,路口左转、右转场景,超车场景相对都还好。应该是目前组合驾驶辅助功能应该来讲在大部分场景可用,但肯定到不了零接管的状态。
拟人化评估。首先是定义拟人化评估几个不同表现,驾驶员紧急干预,例如有碰撞安全风险或者冲出车道风险;驾驶员主动干预,例如起步过渡迟缓、绕不过路边障碍物等,影响交通效率就干预了;还有驾驶习惯差,例如选错车道或者莫名压线变道。
我们统计下来也是一样,我们还是先看左边驾驶员紧急干预和接管场景占比,橙色这部分复杂场景还是比较多的。一般紧急干预或者接管时候,要么场景比较复杂,要么时间反应不过来,要么出现特殊情况。我们这张图映射右边这张图上,右边这张图更完整全面体现了我们不同场景下面拟人化分级评估。好像我们橙色色条变短了很多,不像左面这图这么显眼,为什么?我们很多城区驾驶辅助功能基础功能上面做得不错,很有可能保证你在80%,甚至90%使用时间里面能达到你的心理预期。这个时候大家一定要注意,无论什么情况下,无论什么车型,大家都有橙色区域,橙色区域意味着什么?你走神或者不管它,很有可能造成后果,甚至可能是严重后果。
我们也统计4个车型城市间差异,不同场景脱离率。第一,4个车型不同城市表现是不一样的,有些车型在长三角表现,有些车型在广州、深圳这些地方表现比较好。当然,数据量有限和评估路线的差异也会从统计因素上引起一些差异。
刚才说了,我们目前覆盖了对应车型的两个OTA版本。我们看下来,四个车型里,有三个车型的接管率是下降的,而且进步比较明显。但是有一个车型接管率上升,出现一定倒退,这个我们后面也做了一些沟通,主要是算法从基于规则到端到端算法大规模迁移,出现短暂性能回退,已经在后续版本做了优化提升。再看某个车型OTA前后不同场景的接管率、脱离率,在OTA前后,路口左转、执行、跟车、变道以及分合流场景,它有非常显著的性能提升优化。但是在路口右转场景和障碍物的避让上出现性能回退,导致它接管比例上升的。所以,大家对新版本还是要有一个重新熟悉的过程,尤其是大版本更新,安全使用组合驾驶辅助功能。
最后我们做一个总结和展望,目前整个组合驾驶辅助系统的装机率和使用率都在快速上升,尤其是头部企业喊出“全民智驾”之后,我们统计下来L2级组合驾驶辅助的装机率已经50%多了。随着路上的车,由组合驾驶辅助系统这个“机器”在开的比例越来越高,我们不能仅仅根据良好环境下的个别测试,就相信“极限场景也能开”,把安全彻底交给组合驾驶辅助系统,安全没有后悔药。
组合驾驶辅助能力评测与我们出行安全直接相关,我们需要强化科学评估和安全保障的行业共识。上海汽检智驾研评,希望消除智能驾驶辅助系统评估各种观点中的误导和偏见,遏制概念的混淆,全面呈现车辆在各种不同场景下的动态表现。通过呈现一份大家看得懂的总结报告,呈现系统真实的边界,还原技术的真实面目,帮助消费者选择优秀的产品,积累我们对于技术、工程、产品的真正的信任度,真正去实现我们日常用车安全,提升我们行车安全,保护好我们自己和我们的家人。
我今天汇报就到这里,谢谢大家!
(注:本文根据现场速记整理,未经演讲嘉宾审阅)
评论