欢迎来到生活网

特斯拉端到端AI自动驾驶系统的里程碑项目亮相

编辑:生活网      来源:生活网      特斯拉   激光雷达   自动驾驶   端到端   新能源汽车

2023-10-13 14:00:40 

为此,研究人员为一辆翻新的军用应急车配备了一个看起来像探照灯的巨大摄像头、一个冰箱大小的处理器和一个5000W的发电机。

尽管设备简陋、数据粗糙,例如据媒体报道,当时的车顶摄像头只能输入 30×32 像素的网格,但在突破性的神经网络的帮助下,这辆自动驾驶汽车能够最高时速可达88公里/小时。

它被誉为自动驾驶领域的里程碑项目。 其最深远的影响是用神经网络替代了人工编码,成为自动驾驶技术后续发展的灯塔。

随后的几十年里,自动驾驶技术朝着这个方向快速发展,直到问世,大型车型登场,成为改变自动驾驶的最大变量。

在汽车方面,大型模型已经应用于自动驾驶的感知和预测,并正在向决策层渗透; 在云端,大型模型为L3及以上自动驾驶的实现铺平了道路; 甚至,大型车型将加速城市NOA的实施。

在全球下游企业中,特斯拉无疑是少数走在前列的企业之一。

今年8月,特斯拉端到端AI自动驾驶系统FSD Beta V12版本公开亮相。 据称,它可以完全依靠车载摄像头和神经网络来识别道路和交通状况并做出相应的决策。

这种端到端模型的感知与决策一体化,使得自动驾驶可以直接从一端输入图像数据,从另一端输出操作控制,更加接近真实的人类驾驶。

然而,当车企努力向端到端模式靠拢时,却发现想要超越,必须先跟随。

在将大型车型放入汽车方面,特斯拉绝对是最激进的。

早在2015年,特斯拉就开始进行自动驾驶软硬件的自研。 2016年至2019年,陆续实施算法和芯片自研。 随后在2020年,特斯拉的自动驾驶迎来了大规模升级:

不仅用FSD Beta取代了3.0,算法也从原来的2D+CNN升级为BEV+。

它是 GPT 中的 T。 它是一个深度学习神经网络。 其优点是可以实现全局理解的特征提取,增强模型的稳定性和泛化能力。

BEV的全称是Bird's Eye View。 它是将三维环境信息投影到二维平面上,以鸟瞰的方式显示环境中的物体和地形的方法。

与传统小车型相比,BEV+提升了智能驾驶的感知和泛化能力,有助于缓解智能驾驶的长尾问题:

1)感知能力:BEV统一视角,将激光雷达、雷达、摄像头等多模态数据融合到同一平面上,可以提供全局视角并消除数据之间的遮挡和重叠问题,提高物体检测和跟踪的准确性;

2)泛化能力:通过自注意力机制,模型可以实现全局理解的特征提取,有利于发现事物本身的内部关系,使智能驾驶能够学会总结而不是机械学习。

2022年,特斯拉在算法中引入了顺序网络,并将BEV升级为占用网络(),有效解决了从三维到二维过程中的信息丢失问题。

从感知算法的进展情况来看,2022年及之前行业整体商业应用以2D+CNN算法为主。 随着大型AI模型的兴起,算法已升级为BEV+。

特斯拉在时间上领先(2020年),国内小鹏、华为、理想等今年才改用BEV+。

但无论是特斯拉还是国内整车厂,BEV+仍然只用在传感端。

学术界虽然以最终规划为目标,但提出了UniAD+全栈模型,一种通用的感知与决策一体化的大规模智能驾驶模型。 但由于算法复杂+算力要求大,目标的实现目前还没有准确的时间表。

2016年,因涉及辅助驾驶的致命事故而分道扬镳的特斯拉找到英伟达定制一款名为Drive PX2的计算能力最强大的计算平台。 由此拉开了车企对算力的疯狂追求。

继Drive PX2之后,在6年内发布了三代智能驾驶芯片,从Orin到Thor。 算力从1跃升至3,足足提升了83倍,比摩尔定律还要快。

上游“疯狂”积累算力,归根到底是因为下游有人买单。

一方面,随着智能汽车上传感器的规格和数量增加,数据水平猛增。

以Max和Max为例,后者因为配备了更多的传感器,需要前者的3.5倍的计算能力。

当自动驾驶汽车每天可以产生数TB甚至数十TB的数据时,数据处理能力是验证自动驾驶技术的关键点之一。

另一方面,“大建模”也使得智能驾驶算法的芯片算力日益紧张。

上汽人工智能实验室测试显示,实现L2级自动驾驶只需要以下算力,甚至L4级自动驾驶也只需要100%左右的算力。 下游企业对算力需求暴涨其实还有其他原因。

一是云计算能力。

自动驾驶系统的早期和后期发展都依赖于大量的环境数据输入来训练和验证算法。 同时,模拟测试时的场景构建和渲染也需要较高的计算能力支持。

而且,以特斯拉为首的神经网络也是一个资源消耗大户。 好墨智行数据显示,训练端所需算力是CNN的100倍。

因此,下游企业想要获得算力,要么自己建设智能计算中心(特斯拉),要么与云服务商合作。 最糟糕的选择是将所有计算能力外包,包括算法、计算资源、应用服务等。

大模型上车,特斯拉带了个好头吗?__大模型上车,特斯拉带了个好头吗?

虽然国内主流整车厂/自动驾驶厂商的智能计算中心已全部上线,但由于自建成本较高,国内主流自动驾驶厂商大多采用合作模式/采购模式。 例如,吉利星瑞和小鹏福耀都是由阿里云提供支持的。 、莫莫和理想都是火山发动机。 但从长期成本优势来看,自建倾向依然较高。

另一个是NOA。

现实中,大多数主机厂搭载城市NOA高端智能驾驶功能的车型算力都在200左右。

然而,在NOA从高速公路向城市道路(高速公路-城市快速路-城市主干道-城市次干路-城市支路)拓展的过程中,人流变得更加密集(每年只有25%的人通过高速公路出行)。天,而城市道路则是100%)。 道路环境复杂度越高,对物体识别、感知融合和系统决策的算力要求就越高。

木希首席产品官孙国良指出,要在汽车端部署大型模型并完成既定任务,算力至少要达到300~。 模型优化可能会降低算力需求,但考虑到未来场景复杂度和数据量的增加,以及视觉感知比例的增加(相对于基于规则),车端算力可能会增加一倍以上。

光大证券判断,从L2/L2+向L3高端智能驾驶迈进的三大要素重要性顺序是数据>算法>硬件,后期向更高端智能驾驶迈进的顺序可能是硬件>=算法>数据。

理论依据是,实现L3级智能驾驶的关键在于综合感知,主要依靠海量+长尾场景数据来驱动算法升级和优化; 其中,需要低线城市数据覆盖非成像场景(目前车载算力已基本满足L3-L4级别要求)。

现阶段,海量+长尾场景数据的获取依赖于车载传感器(摄像头)的大幅升级。

根据 Yole 的报告,自动驾驶 L1-L3 所需的摄像头数量增加了一倍。 例如,L1-L2只需要前后两个摄像头,L3则需要20个摄像头。

事实上,主机厂为后续OTA升级预留了冗余,而自行车的摄像头配置远远超过了该级别所需的摄像头数量。 例如,特斯拉配备9个摄像头,蔚来、小鹏、立德车型配备10-13个摄像头。

此外,由于大型模型对传感数据的精细化要求,深度学习模型中高分辨率图像数据可以作为更新和优化其架构参数的数据源,特别是前视摄像头,需要解决最多场景和目标识别任务。 最复杂的,比如远距离小目标识别和短距离目标切入识别。

为了识别和监控更远距离的目标,车载摄像头必须升级到800万像素或更高。 典型的例子就是百度,它联合索尼、联创、黑芝麻智能打造了全球首款超过1500万像素的高像素车载摄像头模组。

在提升感知能力方面,有两个门槛是所有车企都想回避的,即高精度地图和激光雷达。

高精度地图作为先验信息,可以为自动驾驶提供大量的安全冗余。 在数据和算法成熟之前,主机厂对它们的依赖程度很高。 去掉图片的原因也比较容易理解:

1)高精度地图存在更新周期长、成本高、地图经销商资质收紧等缺点,限制了高端自动驾驶大规模商业化的可能性。

2)构建数据闭环,形成算法模型的迭代升级并反馈给车端。

至于如何摆脱地图,特斯拉的做法是引入车道线网络和新的数据标注方法。 国内领先的自动驾驶公司采用车载实时地图解决方案,通过安装在车辆上的摄像头等传感器来构建车辆驾驶。 过程周围环境的地图。

目前,小鹏、华为等领先整车厂均已发布无高精度地图的高端智能驾驶解决方案,并制定了量产时间表。 华为、好墨、元融七星等自动驾驶公司也纷纷加入,自动驾驶算法“重要”。 “感知、光图”趋势明显。

激光雷达是由于成本问题。

激光雷达在距离和空间信息方面具有精度优势。 搭载激光雷达的多传感器融合感知解决方案,可以通过互补实现全环境感知能力,为高级别自动驾驶提供安全冗余。

但激光雷达确实是一个成本很高的玩家。 早些年,除了特斯拉之外,几乎所有成熟的无人驾驶技术方案都采用了64位激光雷达。 其成本约为70万元人民币。 一个小型雷达的价值相当于一辆汽车甚至几辆汽车。

特斯拉利用占用网络来实现类似激光雷达的传感效果。 由于缺乏机器视觉算法,预计国内整车厂仍将使用激光雷达作为重要的补充传感器,这可以减少视觉领域需要积累的数据量。

此外,4D成像毫米波雷达可能完全取代3D毫米波雷达,并有望取代低线激光雷达。

与激光雷达相比,4D成像毫米波雷达的部分指标接近16线激光雷达的性能,但成本仅为激光雷达的十分之一。

基于全新自动驾驶硬件HW4.0,特斯拉首次在S/X车型上搭载4D毫米波雷达。 除特斯拉外,40万元以下的理想车型、70万元以上的宝马车型以及通用汽车收购的自动驾驶服务车近两年都完成了4D毫米波雷达的布局。 与此同时,大陆、采埃孚等汽车一级巨头也基本完成了在该领域的布局。

8月,马斯克亲自在网上发起了FSD Beta V12的现场试驾。 在45分钟内,FSD Beta V12系统在整个驾驶过程中进展非常顺利,能够轻松绕过障碍物并识别各种路标。

马斯克兴奋地说:

V12系统自始至终都是通过AI来实现的。 我们没有编程,没有程序员写一行代码来识别道路、行人等,这一切都交给了神经网络。

而这一切都是建立在海量的“视频数据”和10000个H100的基础上的。

遗憾的是,这两项战略资源并不是国内整车厂能够轻易赶上的。

参考

[1] 你知道自动驾驶已经存在27年了吗?匿名

[2]智能驾驶芯片算力越大越好,远川汽车评论

[3]大车型应用下自动驾驶赛道将发生哪些变化?天风证券

大模型上车,特斯拉带了个好头吗?_大模型上车,特斯拉带了个好头吗?_

[4]AI大模型应用于智能汽车驾驶:推陈出新,太阳正在升起,光大证券

[5]探索:1989年的自动驾驶汽车,雷锋网

[6]自动驾驶能否更快实现?钛媒体

[7]马斯克现场试驾特斯拉FSD V12!端到端AI自动驾驶,万元H100训练,新智元

1989年,卡内基梅隆大学接到了美国军方的一个研究项目,内容涵盖了当时看来不可思议的自动驾驶。

为此,研究人员为一辆翻新的军用应急车配备了一个看起来像探照灯的巨大摄像头、一个冰箱大小的处理器和一个5000W的发电机。

尽管设备简陋、数据粗糙,例如据媒体报道,当时的车顶摄像头只能输入 30×32 像素的网格,但在突破性的神经网络的帮助下,这辆自动驾驶汽车能够最高时速可达88公里/小时。

它被誉为自动驾驶领域的里程碑项目。 其最深远的影响是用神经网络替代了人工编码,成为自动驾驶技术后续发展的灯塔。

随后的几十年里,自动驾驶技术朝着这个方向快速发展,直到问世,大型车型登场,成为改变自动驾驶的最大变量。

在汽车方面,大型模型已经应用于自动驾驶的感知和预测,并正在向决策层渗透; 在云端,大型模型为L3及以上自动驾驶的实现铺平了道路; 甚至,大型车型将加速城市NOA的实施。

在全球下游企业中,特斯拉无疑是少数走在前列的企业之一。

今年8月,特斯拉端到端AI自动驾驶系统FSD Beta V12版本公开亮相。 据称,它可以完全依靠车载摄像头和神经网络来识别道路和交通状况并做出相应的决策。

这种端到端模型的感知与决策一体化,使得自动驾驶可以直接从一端输入图像数据,从另一端输出操作控制,更加接近真实的人类驾驶。

然而,当车企努力向端到端模式靠拢时,却发现想要超越,必须先跟随。

在将大型车型放入汽车方面,特斯拉绝对是最激进的。

早在2015年,特斯拉就开始进行自动驾驶软硬件的自研。 2016年至2019年,陆续实施算法和芯片自研。 随后在2020年,特斯拉的自动驾驶迎来了大规模升级:

不仅用FSD Beta取代了3.0,算法也从原来的2D+CNN升级为BEV+。

它是 GPT 中的 T。 它是一个深度学习神经网络。 其优点是可以实现全局理解的特征提取,增强模型的稳定性和泛化能力。

BEV的全称是Bird's Eye View。 它是将三维环境信息投影到二维平面上,以鸟瞰的方式显示环境中的物体和地形的方法。

与传统小车型相比,BEV+提升了智能驾驶的感知和泛化能力,有助于缓解智能驾驶的长尾问题:

1)感知能力:BEV统一视角,将激光雷达、雷达、摄像头等多模态数据融合到同一平面上,可以提供全局视角并消除数据之间的遮挡和重叠问题,提高物体检测和跟踪的准确性;

2)泛化能力:通过自注意力机制,模型可以实现全局理解的特征提取,有利于发现事物本身的内部关系,使智能驾驶能够学会总结而不是机械学习。

2022年,特斯拉在算法中引入了顺序网络,并将BEV升级为占用网络(),有效解决了从三维到二维过程中的信息丢失问题。

从感知算法的进展情况来看,2022年及之前行业整体商业应用以2D+CNN算法为主。 随着大型AI模型的兴起,算法已升级为BEV+。

特斯拉在时间上领先(2020年),国内小鹏、华为、理想等今年才改用BEV+。

但无论是特斯拉还是国内整车厂,BEV+仍然只用在传感端。

学术界虽然以最终规划为目标,但提出了UniAD+全栈模型,一种通用的感知与决策一体化的大规模智能驾驶模型。 但由于算法复杂+算力要求大,目标的实现目前还没有准确的时间表。

2016年,因涉及辅助驾驶的致命事故而分道扬镳的特斯拉找到定制了一款名为Drive PX2的计算能力最强大的计算平台。 由此拉开了车企对算力的疯狂追求。

继Drive PX2之后,在6年内发布了三代智能驾驶芯片,从Orin到Thor。 算力从1跃升至3,足足提升了83倍,比摩尔定律还要快。

上游“疯狂”积累算力,归根到底是因为下游有人买单。

一方面,随着智能汽车上传感器的规格和数量增加,数据水平猛增。

以Max和Max为例,后者因为配备了更多的传感器,需要前者的3.5倍的计算能力。

当自动驾驶汽车每天可以产生数TB甚至数十TB的数据时,数据处理能力是验证自动驾驶技术的关键点之一。

另一方面生活网资讯,“大建模”也使得智能驾驶算法的芯片算力日益紧张。

大模型上车,特斯拉带了个好头吗?_大模型上车,特斯拉带了个好头吗?_

上汽人工智能实验室测试显示,实现L2级自动驾驶只需要以下算力,甚至L4级自动驾驶也只需要100%左右的算力。 下游企业对算力需求暴涨其实还有其他原因。

一是云计算能力。

自动驾驶系统的早期和后期发展都依赖于大量的环境数据输入来训练和验证算法。 同时,模拟测试时的场景构建和渲染也需要较高的计算能力支持。

而且,以特斯拉为首的神经网络也是一个资源消耗大户。 好墨智行数据显示,训练端所需算力是CNN的100倍。

因此,下游企业想要获得算力,要么自己建设智能计算中心(特斯拉),要么与云服务商合作。 最糟糕的选择是将所有计算能力外包,包括算法、计算资源、应用服务等。

虽然国内主流整车厂/自动驾驶厂商的智能计算中心已全部上线,但由于自建成本较高,国内主流自动驾驶厂商大多采用合作模式/采购模式。 例如,吉利星瑞和小鹏福耀都是由阿里云提供支持的。 、莫莫和理想都是火山发动机。 但从长期成本优势来看,自建倾向依然较高。

另一个是NOA。

现实中,大多数主机厂搭载城市NOA高端智能驾驶功能的车型算力都在200左右。

然而,在NOA从高速公路向城市道路(高速公路-城市快速路-城市主干道-城市次干路-城市支路)拓展的过程中,人流变得更加密集(每年只有25%的人通过高速公路出行)。天,而城市道路则是100%)。 道路环境复杂度越高,对物体识别、感知融合和系统决策的算力要求就越高。

木希首席产品官孙国良指出,要在汽车端部署大型模型并完成既定任务,算力至少要达到300~。 模型优化可能会降低算力需求,但考虑到未来场景复杂度和数据量的增加,以及视觉感知比例的增加(相对于基于规则),车端算力可能会增加一倍以上。

光大证券判断,从L2/L2+向L3高端智能驾驶迈进的三大要素重要性顺序是数据>算法>硬件,后期向更高端智能驾驶迈进的顺序可能是硬件>=算法>数据。

理论依据是,实现L3级智能驾驶的关键在于综合感知,主要依靠海量+长尾场景数据来驱动算法升级和优化; 其中,需要低线城市数据覆盖非成像场景(目前车载算力已基本满足L3-L4级别要求)。

现阶段,海量+长尾场景数据的获取依赖于车载传感器(摄像头)的大幅升级。

根据 Yole 的报告,自动驾驶 L1-L3 所需的摄像头数量增加了一倍。 例如,L1-L2只需要前后两个摄像头,L3则需要20个摄像头。

事实上,主机厂为后续OTA升级预留了冗余,而自行车的摄像头配置远远超过了该级别所需的摄像头数量。 例如,特斯拉配备9个摄像头,蔚来、小鹏、立德车型配备10-13个摄像头。

此外,由于大型模型对传感数据的精细化要求,深度学习模型中高分辨率图像数据可以作为更新和优化其架构参数的数据源,特别是前视摄像头,需要解决最多场景和目标识别任务。 最复杂的,比如远距离小目标识别和短距离目标切入识别。

为了识别和监控更远距离的目标,车载摄像头必须升级到800万像素或更高。 典型的例子就是百度,它联合索尼、联创、黑芝麻智能打造了全球首款超过1500万像素的高像素车载摄像头模组。

在提升感知能力方面,有两个门槛是所有车企都想回避的,即高精度地图和激光雷达。

高精度地图作为先验信息,可以为自动驾驶提供大量的安全冗余。 在数据和算法成熟之前,主机厂对它们的依赖程度很高。 去掉图片的原因也比较容易理解:

1)高精度地图存在更新周期长、成本高、地图经销商资质收紧等缺点,限制了高端自动驾驶大规模商业化的可能性。

2)构建数据闭环,形成算法模型的迭代升级并反馈给车端。

至于如何摆脱地图,特斯拉的做法是引入车道线网络和新的数据标注方法。 国内领先的自动驾驶公司采用车端实时地图解决方案,通过安装在车辆上的摄像头等传感器来构建车辆驾驶。 过程周围环境的地图。

目前,小鹏、华为等领先整车厂均已发布无高精度地图的高端智能驾驶解决方案,并制定了量产时间表。 华为、好墨、元融七星等自动驾驶公司也纷纷加入,自动驾驶算法“重要”。 “感知、光图”趋势明显。

激光雷达是由于成本问题。

激光雷达在距离和空间信息方面具有精度优势。 搭载激光雷达的多传感器融合感知解决方案,可以通过互补实现全环境感知能力,为高级别自动驾驶提供安全冗余。

但激光雷达确实是一个成本很高的玩家。 早些年,除了特斯拉之外,几乎所有成熟的无人驾驶技术方案都采用了64位激光雷达。 其成本约为70万元人民币。 一个小型雷达的价值相当于一辆汽车甚至几辆汽车。

特斯拉利用占用网络来实现类似激光雷达的传感效果。 由于缺乏机器视觉算法,预计国内整车厂仍将使用激光雷达作为重要的补充传感器,这可以减少视觉领域需要积累的数据量。

此外,4D成像毫米波雷达可能完全取代3D毫米波雷达,并有望取代低线激光雷达。

与激光雷达相比,4D成像毫米波雷达的部分指标接近16线激光雷达的性能,但成本仅为激光雷达的十分之一。

基于全新自动驾驶硬件HW4.0,特斯拉首次在S/X车型上搭载4D毫米波雷达。 除特斯拉外,40万元以下的理想车型、70万元以上的宝马车型以及通用汽车收购的自动驾驶服务车近两年都完成了4D毫米波雷达的布局。 与此同时,大陆、采埃孚等汽车一级巨头也基本完成了在该领域的布局。

8月,马斯克亲自在网上发起了FSD Beta V12的现场试驾。 在45分钟内,FSD Beta V12系统在整个驾驶过程中进展非常顺利,能够轻松绕过障碍物并识别各种路标。

马斯克兴奋地说:

V12系统自始至终都是通过AI来实现的。 我们没有编程,没有程序员写一行代码来识别道路、行人等,这一切都交给了神经网络。

而这一切都是建立在海量的“视频数据”和10000个H100的基础上的。

大模型上车,特斯拉带了个好头吗?_大模型上车,特斯拉带了个好头吗?_

遗憾的是,这两项战略资源并不是国内整车厂能够轻易赶上的。

参考

[1] 你知道自动驾驶已经存在27年了吗?匿名

[2]智能驾驶芯片算力越大越好,远川汽车评论

[3]大车型应用下自动驾驶赛道将发生哪些变化?天风证券

[4]AI大模型应用于智能汽车驾驶:推陈出新,太阳正在升起,光大证券

[5]探索:1989年的自动驾驶汽车,雷锋网

[6]自动驾驶能否更快实现?钛媒体

[7]马斯克现场试驾特斯拉FSD V12!端到端AI自动驾驶,万元H100训练,新智元

汽车模型

2023款-纯电动220kW,续航里程554km,指导价参考价

2023款Model Y后轮驱动版全新上市

263,900

询问

+对比

263,900起>

2023款-纯电动331kW 续航688km指导价参考价

2023款Model Y长续航全轮驱动版全新上市

299,900

询问

+对比

299,900起>

2023款-纯电动357kW续航615km指导价参考价

2023款Model Y高性能全轮驱动版全新上市

349,900

询问

+对比

349,900起>

2021款-停产纯电动220kW续航525km指导价

2021款Model Y标准系列后轮驱动版

291,840

+对比

2021款——停产纯电动 317kW 续航里程 594km 指导价

2021款Model Y长续航全轮驱动版

大模型上车,特斯拉带了个好头吗?__大模型上车,特斯拉带了个好头吗?

347,900

+对比

2021款Model Y改款长续航全驱版3D5

347,900

+对比

2021 model - pure 331kW range 594km guide price

2021 Model Y long-range all-wheel drive 3D7

347,900

+对比

2021 model - pure 331kW range 640km guide price

2021 Model Y , long-range all-wheel drive

347,900

+对比

2021 model - pure 357kW range 615km guide price

2021 Model Y high- all-wheel drive

417,900

+对比

2022 model - pure 194kW range 545km guide price

2022 Model Y rear-wheel drive

263,900

+对比

2022 Model Y rear-wheel drive

316,900

+对比

2022 model - pure 331kW range 660km guide price

2022 Model Y long-range all-wheel drive

299,900

+对比

2022 Model Y long-range all-wheel drive

394,900

+对比

2022 model - pure 357kW range 615km guide price

2022 Model Y high- all-wheel drive

349,900

+对比

本网站转载其他媒体之作品,意在为公众提供免费服务。如权利所有人拒绝在本网站发布其作品,可与本网站联系,本网站将视情况予以撤除。

发表我的评论 共有条评论
    名字:
全部评论