盖世汽车讯 人类生活在一个随着时间不断演变的动态3D世界中,当与这个世界互动时,大脑会在几分之一秒内不断做出数百个决定。从是否应该过马路到开车并决定并入另一条车道,大脑具有非凡的能力,能够在整个时间(第四维度)中理解3D空间,从而确定最佳行动。虽然这对许多人来说似乎是第二天性,但它实际上涉及极其复杂的推理技能,对于人造大脑来说并不那么简单。
图片来源于网络,如有侵权,请联系删除
图片来源于网络,如有侵权,请联系删除
图片来源:Waabi
图片来源于网络,如有侵权,请联系删除
以人类如何理解和与周围的世界互动为例。人类依靠视觉和听觉等感官来感知世界,而智能机器则依靠传感器来感知世界。在过去几年中,LiDAR已成为智能机器感知物理世界的主要传感器,因为它提供了对导航和交互至关重要的精确3D信息。LiDAR通过脉冲激光发射光线来测量表面与传感器的距离。在基本层面上,每次照射到物体并返回传感器的光线都会捕获一个LiDAR点。该功能使机器能够“看到”物体表面所在的3D精确点。
然而,挑战仍然存在:如何使这些智能机器能够可靠、高效地从这些传感器读数中提取信息,以实时了解世界并与世界互动?
相信答案就在于生成式人工智能。该领域最近的突破彻底改变了数字世界。大型语言模型(LLM)已经证明,当人工智能扩展为从互联网上的大量数据中学习时,可以实现无限的可能性。如今,这些模型通常被称为基础模型,因为它们具有多功能性,并且能够进行微调以执行从数学和编码到文本摘要和聊天机器人的各种应用程序。
据外媒报道,Waabi推出首个在3D空间和第四维度、时间中明确推理的基础模型Copilot4D,学习在动态世界中交互和行动的卓越能力,无论是在仿真中,如 Waabi World,还是在现实世界中。该模型为更智能的机器(从自动驾驶汽车到机器人等)铺平了道路。
与LLM通过句子中的下一个单词来学习类似,Copilot4D通过预测机器未来将如何观察世界来学习。然而,虽然LLM从代表单词的离散标记中学习,但激光雷达数据本质上是连续的。为了弥合语言和物理世界之间的差距,Copilot4D采用了3阶段架构。
首先,LiDAR标记器将连续传感器数据抽象为一组离散标记,类似于语言中的单词。
然后,Waabi基础模型利用LLM的最新突破,预测世界将如何作为一组代币演变。重要的是,它考虑了具体人工智能代理的未来行为将如何影响世界。
最后,LiDAR渲染器将这些标记带回LiDAR点云,机器人可以像人类通过眼睛看到的那样进行观察,使人类能够从原始传感器记录中学习,而无需人工监督。
图片来源:Waabi
以上为Copilot4D如何在高层工作,接下来从分词器开始更深入地了解它的三个组件。标记器UltraLiDAR可以将连续的传感器数据抽象为鸟瞰图中的离散标记网格,换句话说,就好像场景是从鸟儿俯视时看到的一样。网格中的每个标记本质上描述了场景的局部3D邻域,并且是具体代理用来详细了解其环境的基础。
图片来源:Waabi
配备了一组代表物理世界的离散标记,该基础模型就可以预测下一组标记,以预测未来场景将如何演变,例如不同的车辆和行人将做什么。这与典型的LLM的过程类似,LLM预测句子中的下一个单词,但Copilot4D预测的不是单词,而是周围世界的下一个版本。值得注意的是,LiDAR点云比单词更加复杂和高维,因此像LLM那样一次预测一个标记在计算上是令人望而却步的。为了克服这一挑战,Waabi利用离散扩散来并行预测多个标记,从而使模型更加高效。
为了使人们对未来的信念回归到机器和人类可以理解的表示形式,Waabi采用了一个LiDAR渲染器,它本质上具有与标记器相反的作用:将离散标记映射回连续的LiDAR点云。为此,Waabi利用受物理学启发的可微神经深度渲染中最先进的技术来预测每条激光雷达射线的准确深度。
为了证明Copilot4D的功效,Waabi将其性能与多个公共排行榜中点云预测任务的最先进模型进行了比较。模型提供了一系列过去的LiDAR点云,并评估其预测具体代理在特定时间范围内(例如未来3秒)将观察到的未来LiDAR点云的能力。在此评估中,Copilot4D的性能大幅优于现有方法。
图片来源:Waabi
Copilot4D具有许多新功能,可实现大量应用程序。它可以生成全新场景,可以完成部分场景,可以根据过去预测未来,并且可以针对具体代理的不同反事实轨迹执行此操作。重要的是,它可以从不同的实体(汽车、卡车、机器人等)中了解世界,这些实体可以配备不同类型、数量和位置的激光雷达传感器。这使Copilot4D能够泛化到尚未接受过培训的应用程序和情况。
图片来源:Waabi
Copilot4D标志着智能机器在如何利用原始传感器数据了解所处的世界,而且了解它未来将如何发展方面取得了突破。它使自动驾驶汽车等智能机器能够做出更安全的决策,这些决策不是被动的,而是主动的。例如,当自动驾驶车辆准备改变车道以遵循特定路线时,它可以提示Copilot4D进行变道动作,以了解相邻车道上其他车辆的反应,确保安全后再开始行驶。Copilot4D也很高效——所需的计算位于智能代理本身,它可以通过观察世界和交互来学习,而不需要人类监督。Waabi相信,Copilot4D是在现实世界中实现更智能、更安全、更高效的自主机器(从自动驾驶车辆到仓库机器人、无人机等)的关键。
版权声明
本文仅代表作者观点,不代表百度立场。
本文系作者授权百度百家发表,未经许可,不得转载。