Waabi推出自动驾驶基础模型Copilot4D

小微 2024年04月08日 阅读:49556

盖世汽车讯 人类生活在一个随着时间不断演变的动态3D世界中,当与这个世界互动时,大脑会在几分之一秒内不断做出数百个决定。从是否应该过马路到开车并决定并入另一条车道,大脑具有非凡的能力,能够在整个时间(第四维度)中理解3D空间,从而确定最佳行动。虽然这对许多人来说似乎是第二天性,但它实际上涉及极其复杂的推理技能,对于人造大脑来说并不那么简单。

Waabi推出自动驾驶基础模型Copilot4D
图片来源于网络,如有侵权,请联系删除

Waabi推出自动驾驶基础模型Copilot4D
图片来源于网络,如有侵权,请联系删除

图片来源:Waabi

Waabi推出自动驾驶基础模型Copilot4D
图片来源于网络,如有侵权,请联系删除

以人类如何理解和与周围的世界互动为例。人类依靠视觉和听觉等感官来感知世界,而智能机器则依靠传感器来感知世界。在过去几年中,LiDAR已成为智能机器感知物理世界的主要传感器,因为它提供了对导航和交互至关重要的精确3D信息。LiDAR通过脉冲激光发射光线来测量表面与传感器的距离。在基本层面上,每次照射到物体并返回传感器的光线都会捕获一个LiDAR点。该功能使机器能够“看到”物体表面所在的3D精确点。

然而,挑战仍然存在:如何使这些智能机器能够可靠、高效地从这些传感器读数中提取信息,以实时了解世界并与世界互动?

相信答案就在于生成式人工智能。该领域最近的突破彻底改变了数字世界。大型语言模型(LLM)已经证明,当人工智能扩展为从互联网上的大量数据中学习时,可以实现无限的可能性。如今,这些模型通常被称为基础模型,因为它们具有多功能性,并且能够进行微调以执行从数学和编码到文本摘要和聊天机器人的各种应用程序。

据外媒报道,Waabi推出首个在3D空间和第四维度、时间中明确推理的基础模型Copilot4D,学习在动态世界中交互和行动的卓越能力,无论是在仿真中,如 Waabi World,还是在现实世界中。该模型为更智能的机器(从自动驾驶汽车到机器人等)铺平了道路。

与LLM通过句子中的下一个单词来学习类似,Copilot4D通过预测机器未来将如何观察世界来学习。然而,虽然LLM从代表单词的离散标记中学习,但激光雷达数据本质上是连续的。为了弥合语言和物理世界之间的差距,Copilot4D采用了3阶段架构。

  • 首先,LiDAR标记器将连续传感器数据抽象为一组离散标记,类似于语言中的单词。

  • 然后,Waabi基础模型利用LLM的最新突破,预测世界将如何作为一组代币演变。重要的是,它考虑了具体人工智能代理的未来行为将如何影响世界。

  • 最后,LiDAR渲染器将这些标记带回LiDAR点云,机器人可以像人类通过眼睛看到的那样进行观察,使人类能够从原始传感器记录中学习,而无需人工监督。

    图片来源:Waabi

以上为Copilot4D如何在高层工作,接下来从分词器开始更深入地了解它的三个组件。标记器UltraLiDAR可以将连续的传感器数据抽象为鸟瞰图中的离散标记网格,换句话说,就好像场景是从鸟儿俯视时看到的一样。网格中的每个标记本质上描述了场景的局部3D邻域,并且是具体代理用来详细了解其环境的基础。

图片来源:Waabi

配备了一组代表物理世界的离散标记,该基础模型就可以预测下一组标记,以预测未来场景将如何演变,例如不同的车辆和行人将做什么。这与典型的LLM的过程类似,LLM预测句子中的下一个单词,但Copilot4D预测的不是单词,而是周围世界的下一个版本。值得注意的是,LiDAR点云比单词更加复杂和高维,因此像LLM那样一次预测一个标记在计算上是令人望而却步的。为了克服这一挑战,Waabi利用离散扩散来并行预测多个标记,从而使模型更加高效。

为了使人们对未来的信念回归到机器和人类可以理解的表示形式,Waabi采用了一个LiDAR渲染器,它本质上具有与标记器相反的作用:将离散标记映射回连续的LiDAR点云。为此,Waabi利用受物理学启发的可微神经深度渲染中最先进的技术来预测每条激光雷达射线的准确深度。

为了证明Copilot4D的功效,Waabi将其性能与多个公共排行榜中点云预测任务的最先进模型进行了比较。模型提供了一系列过去的LiDAR点云,并评估其预测具体代理在特定时间范围内(例如未来3秒)将观察到的未来LiDAR点云的能力。在此评估中,Copilot4D的性能大幅优于现有方法。

图片来源:Waabi

Copilot4D具有许多新功能,可实现大量应用程序。它可以生成全新场景,可以完成部分场景,可以根据过去预测未来,并且可以针对具体代理的不同反事实轨迹执行此操作。重要的是,它可以从不同的实体(汽车、卡车、机器人等)中了解世界,这些实体可以配备不同类型、数量和位置的激光雷达传感器。这使Copilot4D能够泛化到尚未接受过培训的应用程序和情况。

图片来源:Waabi

Copilot4D标志着智能机器在如何利用原始传感器数据了解所处的世界,而且了解它未来将如何发展方面取得了突破。它使自动驾驶汽车等智能机器能够做出更安全的决策,这些决策不是被动的,而是主动的。例如,当自动驾驶车辆准备改变车道以遵循特定路线时,它可以提示Copilot4D进行变道动作,以了解相邻车道上其他车辆的反应,确保安全后再开始行驶。Copilot4D也很高效——所需的计算位于智能代理本身,它可以通过观察世界和交互来学习,而不需要人类监督。Waabi相信,Copilot4D是在现实世界中实现更智能、更安全、更高效的自主机器(从自动驾驶车辆到仓库机器人、无人机等)的关键。

版权声明

本文仅代表作者观点,不代表百度立场。
本文系作者授权百度百家发表,未经许可,不得转载。

分享:

扫一扫在手机阅读、分享本文

热门
  • 传松下考虑在美国堪萨斯州增加投资以扩产

    传松下考虑在美国堪萨斯州增加投资以扩产
    盖世汽车讯 据日经网报道,特斯拉电池供应商松下能源(Panasonic Energy)考虑在美国堪萨斯州增加投资,正在评估是否要在德索托(De Soto)市增加。图片来源于网络,如有侵权,请联系删除 报道称,该计划在内部被称为第三阶段(Phase 3),包括在堪萨斯州新增生产线。据一位知情人士透露,该计划的拟建规模与目前德索托工厂的规模相似,而新增产能的主要客户是特斯拉。图片来源于网络,如有侵权,请联系删除 一位直接了解该计划的知情人士指出,该计划仍处于早期阶段,“尚未做出最...
  • 蔚小理要到对方的主阵地中战斗

    蔚小理要到对方的主阵地中战斗
    蔚来接连官宣与长安、吉利两大换电合作伙伴后,又等来了独立造车的许可证,“江淮蔚来”从此变成了“蔚来汽车”。图片来源于网络,如有侵权,请联系删除 连番的消息中,蔚来的三季报终于发布。在这份要好于外界预期的财报中,交付、营收等数据创下新高,毛利率水平明显改善; 早于蔚来披露的理想、小鹏也在三季度的经营中直线前进。理想的毛利率高于特斯拉,现金储备超越比亚迪,距离千亿营收规模仅差临门一脚;得益于G6、新G9两款明星车型,小鹏的交付量与销售收入也双双增长。 财报发布后,竞争仍在继续。搭...
  • 多家车企反对美国强制召回5200万个安全气囊充气机

    多家车企反对美国强制召回5200万个安全气囊充气机
    盖世汽车讯 据路透社报道,通用汽车(General Motors)、丰田汽车(Toyota Motor)和大众汽车(Volkswagen)等主要汽车制造商以及两家安全气囊制造商在12月19日表示,他们反对美国汽车安全监管机构要求召回5200万个安全气囊充气机的提议。图片来源于网络,如有侵权,请联系删除 图片来源于网络,如有侵权,请联系删除 图片来源: 美国国家公路交通安全管理局图片来源于网络,如有侵权,请联系删除 美国国家公路交通安全管理局(NHTSA)官员在10月...
  • 沃尔沃汽车:或于明年夏季在美交付EX30

    沃尔沃汽车:或于明年夏季在美交付EX30
    盖世汽车讯 据汽车新闻报道,应沃尔沃汽车的要求,北美年度最佳轿车、卡车和SUV奖(North American Car, Truck and Utility of the Year Awards,简称NACTOY)组委会已将其纯电动跨界车EX30从2024年度北美最佳SUV的候选名单中剔除。图片来源于网络,如有侵权,请联系删除 12月11日,NACTOY主席Jeff Gilbert在发给评委的一封电子邮件中表示,沃尔沃汽车已告知,“EX30首批车辆要到2024年才能交付给美国...
  • 年内首发 全新奥迪RS 4继任者假想图曝光

    年内首发 全新奥迪RS 4继任者假想图曝光
    日前,车质网从相关渠道获取了一组全新奥迪RS 4继任者车型假想图。根据奥迪品牌规划,全新奥迪A4将会更名为奥迪A5,而奥迪RS 4换代后有望命名为RS5 Avant。据悉,新车有望年内首发亮相。图片来源于网络,如有侵权,请联系删除 图片来源于网络,如有侵权,请联系删除 从曝光的假想图来看,新车将依旧采用奥迪高性能家族经典的六边形蜂窝状进气格栅,只不过尺寸有所增大。同时,两侧导流口造型更为运动,头灯视觉效果也更为犀利。‌‌‌​​‌​​⁠‌​‌‌‌​​​⁠‌​...
标签列表