新型电商平台有哪些_怎么查看小程序的开发公司_郑州网站建设推广_项目推广平台有哪些

我自己的原文哦~ https://blog.51cto.com/whaosoft/13793157

#汇聚感知、定位、规划控制的自动驾驶系统

自动驾驶技术在应用到车辆上之后可以通过提高吞吐量来缓解道路拥堵，通过消除人为错误来提高道路安全性，并减轻驾驶员的驾驶负担，从而提高工作效率和休息时间等诸多好处。在过去的30年间，随着传感器和技术的进步使得必要硬件的规模和价格不断减小，在工业界和学术界对于自动驾驶汽车技术的研究力度稳步加大，目前已经取得了诸多的实质性进步。

因此，本文旨在概述自动驾驶汽车软件系统领域的最新发展。本文回顾了自动驾驶汽车软件的基本组成部分，并讨论了各个领域的最新发展。自动驾驶汽车软件系统的核心能力大致可分为三类，即感知、规划和控制，这些能力与车辆与环境的交互如下图所示。此外，可以利用车对车 (V2V) 通信，通过车辆协作进一步改善感知以及规划领域。

自动驾驶汽车软件和硬件的基本组成部分

通过上图可以看出，自动驾驶汽车的软件主要包括感知，规划和控制三个大方向。

感知：感知是指自主系统从环境中收集信息和提取相关知识的能力。环境感知是指发展对环境的情境理解，例如障碍物的位置、道路标志以及标记的检测以及根据语义对数据进行分类。定位是指自动驾驶汽车确定其相对于环境的位置的能力。
规划：规划是指为了实现自动驾驶汽车更高阶的目标而做出有目的的决策的过程，通常是将车辆从起始位置带到目标位置，同时避开障碍物并优化设计的启发式方法。
控制：控制能力是指自动驾驶汽车执行由更高级别流程生成的计划动作的能力。

文章链接：https://www.mdpi.com/2075-1702/5/1/6

感知部分

环境感知

环境感知是自动驾驶汽车的一项基本功能，它为汽车提供有关驾驶环境的重要信息，包括可自由驾驶区域和周围障碍物的位置、速度，甚至未来状态的预测。一般而言自动驾驶汽车上都会配置激光雷达、摄像头、毫米波雷达、超声波雷达等信息采集传感器来实现更高效、准确的周围环境感知。无论采用哪种传感器，感知任务的两个关键要素是路面提取和道路物体检测。

激光雷达传感器

激光雷达是一种光检测和测距设备，它以精心设计的模式每秒发送数百万个光脉冲。借助其旋转轴，它能够创建环境的动态三维地图。激光雷达是大多数现有自动驾驶汽车物体检测的核心。下图显示了3D激光雷达的理想检测结果，所有移动物体均被识别。

3D激光雷达检测到所有移动物体的理想检测结果

在真实场景中，激光雷达返回的点从来都不是完美的。处理激光雷达点的困难在于扫描点稀疏、缺失点和无组织的模式。周围环境也给感知带来了更多挑战，因为表面可能是任意和不稳定的。有时甚至很难从扫描点的可视化中感知到有用的信息。激光雷达的输出是从物体反射回来的稀疏3D点，每个点代表物体相对于激光雷达的3D位置。点的三种主要表示形式通常包括点云、特征和网格。因此，很多学术界的算法都在研究如何实现对于点云特征的更准确表达。

为了要感知3D点云信息，通常涉及两个步骤：分割和分类。有些可能包括第三步，即在时间维度上的积分，以提高准确性和一致性。点云的分割是将点进行聚类的过程，而分类是识别分割的点群的类别，例如自行车、汽车、行人、路面等。3D点云分割算法可分为五类：基于边缘、基于区域、基于属性、基于模型和基于图的各类算法。但随着如今技术的快速发展和迭代，又出现了基于深度学习算法的类别。

在进行点云的分割之后，每个点云簇需要分类为不同的对象类别。每个点云簇中嵌入的信息主要来自空间关系和点的激光雷达强度，这在对象识别中的用途非常有限。因此，大多数算法将通过一些融合机制来实现视觉检测问题。

视觉

自动驾驶汽车环境感知中的视觉系统通常涉及道路检测和道路物体检测。道路检测也包括两类：车道线标记检测和路面检测。

车道线标记检测：车道线标记检测是识别道路上的车道线标记并估计车辆相对于检测到车道线的姿态。这条信息可以作为车辆位置反馈给车辆控制系统。近年来，人们在这个领域进行了大量的研究工作，并取得了较为不错的成绩。
路面检测：路面检测可告知自动驾驶汽车可在不发生碰撞的情况下行驶的自由空间位置。这是任何在线路径规划和控制操作的先决条件。一般来说，方法可分为三类：基于特征、线索的检测、基于特征、线索的学习和深度学习。

对这部分感兴趣的读者可以在论文原文的第2.1.2小节中找到相关的学术论文和研究成果。

传感器融合

不同的传感器各有优缺点。需要传感器融合技术才能充分利用每个传感器的优势。在自动驾驶汽车环境感知方面，激光雷达能够进行3D 测量，并且不受环境照明的影响，但它提供的物体外观信息很少；相反，摄像头能够提供丰富的外观数据，其中包含有关物体的更多细节，但其性能在不同照明条件下并不一致；此外，摄像头不会隐式提供3D信息。考虑到上述的问题，目前基于工业界和学术界对于各类传感器融合算法开展了大量的研究并且取得了诸多出色的研究进展。相关的学术论文及研究成果可以详见论文原文的第2.1.3小节。

定位

定位是确定自车姿态并测量其自身运动的问题。这是实现自动驾驶的基本能力之一。然而，确定车辆的准确姿态（位置和方向）通常很困难，因此定位问题通常被表述为姿态估计问题。估计自车姿态的问题通常可以分为两个子问题，即姿态固定问题和航位推算问题。在姿态固定问题中，测量值与姿态通过代数或者超越方程相关联。姿态固定需要能够根据姿态（例如地图）预测测量值。在航位推算问题中，状态与观察值通过一组微分方程相关联，并且必须将这些方程积分才能导航。在这种情况下，传感器测量值不一定可以从给定的姿态推断出来。从这个意义上讲，姿态固定和航位推算相辅相成。

在定位问题上目前也有诸多的解决方案，定位车辆的最流行方法之一是卫星导航系统和惯性导航系统的融合。卫星导航系统，如GPS可以定期定位车辆的全球位置。它们的精度可以从几十米到几毫米不等，具体取决于信号强度和所用设备的质量。惯性导航系统使用加速度计、陀螺仪和信号处理技术来估计车辆的姿态，不需要外部基础设施。然而，如果不添加其他传感器，惯性导航系统的启动可能会很困难，并且误差会随着时间的推移而无限增长。有关于其它相关的定位解决方案可以阅读论文中第2.2节相关的技术细节。

规划部分

早期的自动驾驶汽车通常只是半自动驾驶，因为它们的设计功能通常仅限于执行车道跟踪、自适应巡航控制和一些其他基本功能。随着自动驾驶规划技术的快速发展，更全面的规划框架可以使自动驾驶汽车处理各种复杂的城市驾驶场景。任务规划（或路线规划）考虑的是高级的目标，例如接送任务的分配以及应走哪条路来完成任务。行为规划做出临时决策，以便与其他交通智能体正确交互并遵守规则限制，从而生成局部目标，例如，变道、超车或通过交叉路口。运动规划（或局部规划）生成适当的路径或者动作集以实现局部目标，最典型的目标是到达目标区域同时避免与障碍物碰撞。接下来，我们对此分别进行介绍。

任务规划

任务规划通常通过对反映道路或者路径网络连通性的有向图网络进行图形搜索来执行。Dijkstra算法或者A*算法等算法都是任务规划中的经典算法，感兴趣的读者也可以看下针对路线规划为主的综述性论文。

行为规划

行为规划器负责做出决策，以确保车辆遵守任何规定的道路规则，并以常规、安全的方式与其他交通智能体进行交互，同时沿着任务规划器规定的路线逐步前进。这可以通过结合本地目标设定、虚拟障碍物放置、可驾驶区域边界调整或者区域启发式成本调整来实现。

运动规划

运动规划是一个非常广泛的研究领域，应用于移动机器人和操纵臂，应用范围广泛，包括制造、医疗、应急响应、安全监视、农业和运输。在自动驾驶汽车这一研究领域，运动规划是指决定一系列动作以达到指定目标的过程，通常同时避免与障碍物发生碰撞。运动规划器通常根据其计算效率和完整性进行比较和评估。计算效率是指过程运行时间以及它如何根据配置空间的维数进行扩展。如果算法在有限的时间内终止，当存在解决方案时始终返回解决方案，否则指示不存在解决方案，则认为该算法是完整的。

运动规划的核心思想是通过将连续空间模型转换为离散模型，目前常用的一般是如下两类转换方法：

组合规划方法：组合规划器旨在通过构建一个离散表示来找到完整的解决方案，该方法准确地表示原始问题，但其特点是对于特殊情况求解器具有方便的属性。
基于采样的方法：基于采样的方法依赖于连续空间的随机采样，以及可行轨迹图（也称为树或路线图）的生成，其中通过检查节点和连接这些节点的边的碰撞来验证可行性。理想情况下，生成的路线图应提供所有无障碍空间的良好覆盖和连通性。然后使用路线图上的路径来构建原始运动规划问题的解决方案。

但是，在日常的自动驾驶汽车行驶过程中，许多操作环境并非静态的，因此无法预先知道。在城市环境中，行人以及周围的汽车会移动，道路会因施工或事故清理而绕行和封闭，视野也会经常受阻。自动驾驶汽车必须不断感知环境中的新变化，并能够在考虑多种不确定性的同时做出反应。不确定性来自感知传感器的精度、定位精度、环境变化和控制策略的执行，因此在实际的应用过程中，如何实现准确、舒适和高效的规划依旧是非常重要的挑战。

控制

自主系统的执行能力（通常也称为运动控制）是将意图转化为行动的过程；其主要目的是通过向硬件级别提供必要的输入来执行计划的意图，从而产生所需的运动。控制器从力和能量的角度映射现实世界中的交互，而自主系统中的认知导航和规划算法通常与车辆相对于其环境的速度和位置有关。控制系统内部的测量可用于确定系统运行情况，因此控制器可以做出反应以消除干扰并将系统的动态改变为所需状态。系统模型可用于更详细地描述所需的运动，这对于令人满意的运动执行至关重要。

反馈控制是许多应用中最常见的控制器结构。反馈控制使用测量的系统响应并主动补偿与期望行为的任何偏差。反馈控制可以减少参数变化、建模错误以及不必要的干扰的负面影响。反馈控制还可以修改系统的瞬态行为以及测量噪声的影响。然而，在控制器中仅使用反馈项可能会受到一些限制。仅反馈控制器的第一个重要限制是它对错误的响应延迟，因为它只在错误发生时才做出响应。纯反馈控制器还存在耦合响应的问题，因为对干扰、建模误差和测量噪声的响应都是由同一机制计算的。有关于控制相关的更多研究和解决方案可以参考论文中的第四节内容。

结论

近年来，随着自动驾驶技术的快速发展和迭代，各个自动驾驶系统的子模块也取得了日新月异的发展，本文就针对自动驾驶系统中的感知、规划和控制等软件系统进行了较为详细的总结和归纳，以帮助自动驾驶领域的从业者进行更好的学习。

#单目深度估计的扩散模型

原标题：Diffusion Models for Monocular Depth Estimation: Overcoming Challenging Conditions

论文链接：https://arxiv.org/pdf/2407.16698

代码链接：https://github.com/fabiotosi92/Diffusion4RobustDepth

作者单位：博洛尼亚大学

论文思路：

本文提出了一种新颖的方法，旨在解决单张图像深度估计任务中由挑战性、分布外数据带来的复杂性。首先，从那些由于没有不利因素而便于深度预测的图像开始，本文系统地生成包含全面挑战和相关深度信息的用户定义场景。这是通过利用具有深度感知控制的最前沿文本到图像扩散模型实现的，这些模型以生成高质量图像内容而著称，同时保持生成图像与源图像之间的3D结构一致性。随后，通过一种自蒸馏协议对任何单目深度网络进行微调，该协议考虑到使用本文策略生成的图像及其在简单、无挑战场景中的深度预测。针对本文的目的设计的基准测试实验展示了本文提案的有效性和多功能性。

主要贡献：

本文率先使用扩散模型作为一种新颖的解决方案，解决单张图像深度估计中的挑战，特别是涉及恶劣天气条件和非朗伯面(non-Lambertian surfaces)场景的情况。
通过蒸馏扩散模型的知识，本文的方法提高了现有单目深度估计模型的鲁棒性，尤其是在具有挑战性的分布外环境中。
本文的方法同时应对恶劣天气和非朗伯面挑战，展示了在实现与依赖额外训练信息的专门解决方案（如[18, 27]）相媲美的结果的同时，解决多个挑战性场景的潜力。

论文设计：

单目深度估计作为计算机视觉中的关键任务，由于深度学习技术的最新突破而取得了显著进展。这在多个领域有着广泛的应用，从增强机器人技术和增强现实到提高自动驾驶的安全性和精确度，特别是在由于资源或空间限制而无法依赖多张图像进行深度估计的情况下。然而，尽管单目深度估计在实际应用中具有优势，但它面临着从单张图像推断深度的挑战，这一问题被公认为具有不良设定和严重欠约束的特性。通常，解决这一挑战的方法包括通过监督方法[9, 15, 46, 61, 93, 98, 101]训练单目深度网络，使用主动传感器的标注数据，或利用在训练时使用立体图像对[29]或单目视频序列[112]的自监督技术。

最先进的模型，如DPT [69]和较新的Depth Anything [96]，结合了大量数据集的见解，每个数据集的深度标注使用不同的技术提取。这种广泛的训练协议使这些模型能够在广泛的现实场景中表现出色。然而，必须强调的是，即使这些模型在许多设置中表现优异，当处理远离训练期间观察到的分布的数据时，仍面临显著挑战，例如恶劣条件（如雨天和夜间）或具有非朗伯表面的物体。这些挑战主要源于缺乏用于鲁棒模型训练的高质量标注数据，以及现有基于视觉的深度提取技术和主动传感器（如LiDAR、ToF、Kinect等）的局限性，这些技术在复杂环境中（如雨、雪或具有特定反射特性的材料）表现不佳。因此，在这些情况下的深度估计往往不可靠，对依赖准确3D信息的后续应用产生严重影响。通常，当前的方法倾向于独立解决这些挑战。有些方法专注于解决光照不足和恶劣天气的问题 [26, 27, 91]，而另一些则处理非朗伯表面的问题 [18]。这些分散的方法突显了需要一种统一的方法——一个能够同时处理所有不利场景的单一框架，提供更鲁棒和通用的解决方案。

在这项工作中，本文引入了最初为图像合成设计的扩散模型[20, 44]，作为一种开创性的策略，以应对那些位于通常用于训练深度估计模型的数据分布长尾部分的图像所带来的严峻挑战。

基于具有多模态控制的文本到图像扩散模型的原理[56, 106]，本文旨在创建一个多样化的高度逼真的场景集合，这些场景准确复制特定参考环境的3D结构，但有意地加入了各种不利因素。重要的是，这些条件完全是任意的，可以根据特定应用的需求通过用户定义的文本提示进行定制。

更具体地说，本文的方法首先选择那些最初描绘没有与不利条件相关的复杂性的场景图像。这些样本可以从现有的现实世界数据集[17, 28, 57]中获取，通过自定义集合收集，甚至可以使用生成模型[2, 59]生成。对于预选的图像，本文采用任何现成的单目深度估计网络来提供场景的初始3D表示。重要的是，这样的模型可以在不同的大规模数据集上进行预训练，或者根据应用需求定制到特定领域。

随后，本文应用文本到图像扩散模型，将最初简单的图像转化为更复杂的图像，同时保持相同的基础3D场景结构（即深度）。在结合复杂和简单图像后，用于3D数据生成的预训练深度网络进入微调阶段。在此阶段，本文将模型暴露于组合数据集，提供具有挑战性的训练图像及其在初始步骤中获得的相应深度图。这一微调过程提升了单目网络推断深度的能力，使其能够更好地处理不利环境，如图1所示。

图1：框架结果。从上到下分别为：源图像、原始Depth Anything [96]的深度预测，以及本文微调版本的结果。

本节概述了本文的框架，如图2所示，旨在改善在不利环境下的单目深度估计。假设在一个领域中不存在同时描绘简单和复杂条件的图像，本文的方法使用具有深度感知控制的扩散模型将简单样本转换为复杂样本。随后，本文通过自蒸馏和使用生成数据的尺度和偏移不变损失来微调预训练的单目深度网络。

图2：方法概述。左侧：图像生成和自蒸馏。扩散蒸馏数据（上）：简单图像（）和文本提示（）输入到条件扩散模型中生成不利场景（）。深度标签蒸馏（下）：预训练网络从简单图像（）估计深度（）。使用（）对进行微调，采用尺度和偏移不变损失。右侧：微调后的网络在测试中处理从简单到复杂场景的多样化输入。

图3：生成图像——天气条件。(a-b)：来自KITTI 2015 [54]的RGB图像和深度图。(c-f)：由扩散模型[56]生成的图像，这些图像由(b)中的深度图和每个子图中指示的文本提示条件生成。

图4：生成图像——ToM对象。从上到下分别为：来自Stable Diffusion [2]的简单场景，来自Depth Anything [96]的深度图，使用[56]生成的转换场景。

实验结果：

图5：定性结果。从上到下分别为：RGB图像、原始模型预测的深度图以及使用本文方法微调版本预测的深度图。

总结：

本文引入了一种开创性的单目深度估计训练范式，该范式利用扩散模型来应对分布外场景。通过将简单样本转换为复杂样本，本文生成了捕捉现实世界挑战的多样化数据。本文的微调协议增强了现有深度网络的鲁棒性和泛化能力，使其能够在不需要特定域数据的情况下处理恶劣天气和非朗伯表面。跨多个数据集和最先进架构的广泛实验表明了本文方法的有效性和多功能性。

#自动驾驶行车&泊车~从原理到实践

自动驾驶的两大基础任务：行车&泊车

说起智能驾驶最核心的功能，无疑是行车和泊车。行车功能几乎占据了智能驾驶99%的时间，日常使用最多的自适应巡航控制（ACC）、车道居中控制（LCC）、自动变道辅助（ALC）、高速领航驾驶辅助（NOA）等等都属于行车的范畴。泊车功能相对简单一些，主要是低速场景的车位泊入及泊出，包含低速遥控泊车（RPA）、记忆泊车（HPA）和代客泊车（AVP）。

行车泊车功能的实现包括感知、预测、规划等多个任务，而评价智驾功能安全性及舒适度的决定因素在于规划控制。规划控制作为整个自动驾驶/机器人算法流程中最下游的模块，直接影响司机和乘客的乘车体验，更直接一点：转弯加减速是否丝滑、行车轨迹规划是否符合人类驾驶习惯、车位泊入是否顺畅等等。

虽然特斯拉FSD V12之后，国内各大新势力都在攻坚端到端。但据了解，国内端到端落地尚不明朗，很多公司的端到端虽然已经对外声称上车，但效果相比于rule-based方案，仍然有较大差异。很多公司仍在demo阶段，还不敢投入主战场。直接使用模型输出的规划结果，不出意外的话会不停地『画龙』，安全性根本无法保障，因此仍然需要传统规控兜底。特别是对安全性要求更高的L4，传统规控仍然占据主导地位，短时间内想要替换比较困难。

业内主流的决策规划框架

规划控制发展至今，行业也衍生出很多的决策规划框架，目前主要有以下三大类：

路径速度解耦的决策规划框架；
时空联合的决策规划框架；
数据驱动的决策规划框架。

据了解，业内绝大多数公司采用的都是路径速度解耦的决策规划框架。并且这种方法的上限也是很高的，不少公司都基于该框架实现了无人化的操作。而这种框架最具代表性的方法便是百度Apollo EM Planner，像地平线、大疆、华为、Momenta等诸多主流自动驾驶和芯片公司都有Apollo的影子或基于此直接进行二次开发。

自动驾驶领域为了缩短开发周期，减少框架稳定性的验证，一般会基于优秀的开源框架进行二次开发，比如ROS、Apollo等，重复造轮子对快节奏的自动驾驶行业不是很可取。

而Apollo从2017年4月发布1.0到2023年12月的9.0，已经走过了7个年头。作为最成熟的开源框架影响了无数的自动驾驶从业者，开源Apollo框架集成了很多实用的算法，工程架构完备且方便迁移使用，所以很多初创公司更是直接基于Apollo框架开发产品，可以说Apollo推动了自动驾驶行业的快速发展，这一点百度真的很有远见。

因此，对于刚入门决策规划的小白来说，Apollo决策规划框架是最合适的入门学习内容；对正在找工作和已经工作的同学来说，Apollo也是面试和开发绕不开的点。

从学习/工程角度来说：Apollo框架工程性强，C++代码规范，集成了众多优秀的算法实现。
从面试角度角度来说：对于大部分基础问题, 几乎都可以从Apollo开源代码里找到答案！
从就业角度来说：百度的招聘直接明确的标明"熟悉开源Apollo"优先。如果你学过 Apollo, 绝对是一个很大的加分项。

决策规划的难点在哪里？

整体来说，规划控制相比于感知对理论知识的要求较高。目前业界主流的行车规划EM Planner、泊车规划Hybrid A*。且量产部署均是基于C++开发优化。这段时间有很多小伙伴咨询行车&泊车决策规划的相关问题，市面上已有的鞠策规划相关学习资料质量参差不齐

#MambaST

一种即插即用的跨光谱时空融合器，用于高效行人检测

论文标题：MambaST: A Plug-and-Play Cross-Spectral Spatial-Temporal Fuser for Efficient Pedestrian Detection MambaST: 一种即插即用的跨光谱时空融合器，用于高效行人检测
论文会议：The 27th IEEE International Conference on Intelligent Transportation Systems (IEEE ITSC 2024)
论文作者：Xiangbo Gao等

1.写在前面

行人检测是自动驾驶等应用中的一项重要任务，然而在低照明场景（如夜间），可见光（RGB）摄像头难以单独检测到行人，因此跨光谱融合方法显得尤为重要，利用热成像和可见光摄像头的互补信息提升检测效果。此外，行人视频数据中的顺序运动信息也强调了结合空间和时间信息的重要性，以提高检测性能。虽然多模态融合和时空建模已取得一定进展，但跨光谱时空融合仍有待进一步研究。已有的方法主要集中在单帧的跨光谱空间融合，或多帧单模态输入。针对这一问题，本文提出了一种名为MambaST架构，基于状态空间模型（Mamba），首次结合了跨光谱的空间和时间信息，提出了多头层次化分块和聚合（MHHPA）模块，用于层次化时空特征提取。实验结果表明，MambaST在检测性能和模型效率上有显著提升，同时所需的模型参数和计算资源更少。

相关工作总结

跨模态融合方法

多模态传感器数据提供了互补信息，常见的跨模态传感器组合包括RGB-thermal、RGB-LiDAR和RGB-Depth传感器，特别是在低光照环境下，热成像摄像头因其在各种光照和环境条件下能够提供详细的灰度图像而成为一种重要的融合传感器。

Mamba 和 Vision Mamba 的基础

Mamba 是一种用于序列建模的状态空间模型（SSM），其最初应用于一维序列数据。随后，研究人员将其扩展到二维图像数据，用于视觉任务。这些扩展版本（如 VMamba 和 Vision Mamba）通过将图像划分为路径序列或加入位置嵌入，展示了Mamba架构在图像特征提取方面的潜力。尽管已有研究使用Mamba进行多模态融合，但这些工作主要集中在单帧融合上，未能推广到多时序序列。

时序融合

为了进行时间融合，已有的方法包括3D卷积、自适应2D卷积和Transformer等，但这些方法通常无法处理多模态输入。其他方法则集中在单帧跨光谱空间融合，无法直接适应时间融合。在本文中，我们提出了一种扩展Mamba架构的方法，通过递归连接帧间的特征值，实现时序序列的融合。

2.方法论详细总结

模型架构概述

多头层次化分块和聚合（MHHPA）

为了同时提取RGB和热成像特征图中的细粒度和粗粒度信息，本文提出了一种新的多头层次化分块和聚合（MHHPA）结构。现有的方法，如VMamba和Vision Mamba模型，通常在平展特征之前对其进行分块和标记，这样可以有效减少时间复杂度，但可能导致潜在的信息丢失，削弱模型提取细粒度信息的能力。相反，直接平展特征图用于融合的方法（如一些热成像-RGB融合工作）则可能引入噪声，特别是对于小物体的特征表示。因此，MHHPA模块通过层次化结构同时提取细粒度和粗粒度信息，并将它们结合在一起，从而平衡了信息提取的精细度和噪声去除。

顺序感知的拼接和平展（OCF）

为了在多光谱特征图的平展过程中保持空间连续性，本文提出了顺序感知的拼接和平展（OCF）过程。对于每一帧在时间 t 的特征图，OCF过程将来自RGB和热成像特征图的像素交替拼接，并按顺序平展，从而确保在平展表示中保持多光谱数据的结构完整性和空间关系。

OCF的具体公式如下：

用于时间融合的递归结构

本文在MHHPA模块的基础上引入了递归结构，通过在时间帧之间建立递归连接，实现了时序序列的融合。基于Mamba的转换函数公式：

这一递归结构通过时间上的连接，有效地结合了时空信息，显著提升了行人检测的性能。

3.实验结果详细总结

数据集和评价指标

我们在KAIST多光谱行人检测基准数据集上评估了所提出的MambaST方法。训练使用的是、清理后的标注数据集，包括41个视频序列，总计7,601对图像。测试则在25个视频序列中的2,252对图像上进行。

我们在KAIST基准数据集中提供了两个设置下的评估结果：合理（reasonable）和合理小尺寸（reasonable small）。“合理”设置包括高度超过55像素且未遮挡或部分遮挡的行人，而“合理小尺寸”设置包括高度在50到75像素之间的行人。两种设置都使用日志平均错失率（LAMR）作为评价指标，LAMR值越低，性能越好。我们还报告了召回率，较高的召回率表示较低的假阴性率。此外，为评估算法效率，我们报告了推理过程中的模型参数数量和GFLOPs值，参数和GFLOPs值越低，意味着处理图像序列所需的计算资源越少，效率越高。

实现细节

与其他跨模态融合方法的比较

我们将所提出的MambaST融合模块与RGB单模态和热成像单模态方法进行了比较，还包括基本特征加法策略和跨模态融合Transformer（CFT）。在基本特征加法策略中，RGB和热成像特征简单相加，所得特征图在模态间进行广播，这作为基线比较。对于更高级的跨模态融合方法，我们比较了CFT，这是一种顶级的跨模态融合方法。由于原始CFT模型仅适用于单帧，为了实现时间融合，我们实现了三个CFT的变体进行全面比较：1）CFT模型，原始CFT逐帧应用；2）T-CFT模型，通过拼接所有时间步的特征图整合时间信息；3）D-CFT模型，这是一种变体，使用可变形注意力替代Transformer中的标准自注意力，以更高效地处理时间数据。

小目标检测的评估

根据KAIST基准设置，将高度在50到75像素之间的行人视为小尺寸目标。实验结果表明，MambaST在所有设置中表现优异，尤其是在小尺寸目标检测中，显著提高了准确率和召回率。

效率评估

我们评估了推理过程中所需的参数数量、GFLOPs值以及延迟时间。相比于其他方法，MambaST在达到更好检测性能的同时，所需参数数量和GFLOPs值最低，并且具有相对较低的推理延迟。

与当前最先进方法的比较

我们将MambaST与KAIST数据集上的最先进的融合方法进行了比较。实验结果表明，MambaST在夜间场景下的检测性能最为优异，并且随着输入帧数的增加，检测性能进一步提升。

消融研究

我们进行了多组消融研究，评估不同参数选择的效果。首先，我们测试了MHHPA块中不同分块尺寸的数量。实验结果表明，在第一个MHHPA块中使用四个分块尺寸，并在随后的块中省略分块操作，能够在合理和合理小尺寸设置下实现最低的LAMR。其次，我们评估了顺序感知拼接和平展模块（OCF）的影响，发现引入OCF进一步提高了检测性能。最后，我们测试了不同帧数（）的影响，实验表明使用更多帧数能进一步提升模型性能，证明了Mamba模型在处理长序列上的优势。

4.可视化结果

#自动驾驶CornerCase变小Case

数据的收集、标注和整理过程既耗时又昂贵是自动驾驶技术发展不得不面对的问题。结合世界模型、扩散模型，来生成高质量的训练数据，为自动驾驶系统提供了更加真实和复杂的模拟环境。这种方法不仅降低了对真实世界数据集的依赖，还显著提高了数据生成的效率和多样性，为自动驾驶系统提供了更丰富的训练样本，使自动驾驶系统能够更好地适应各种复杂的交通场景，有助于提升其泛化能力和鲁棒性。

具体来说，近年来研究者多聚焦于如何让各种生成式技术各显神通，提升仿真各环节的“能力上限”。如：

1）基于世界模型生成高质量的驾驶视频和驾驶策略，在仿真环境中模拟各种复杂场景，提升系统的鲁棒性；

2）通过整合大语言模型，可以生成多视图的自动驾驶视频，充分考虑交通流、道路状况、行人行为等多种因素，实现定制化的交通模拟；

3）从原始传感器数据中提取特征，并生成自动驾驶的规划结果，实现生成式端到端自动驾驶……

4）加强自动驾驶系统的局部语义表示和图像推理能力，使得自动驾驶系统能够更好地理解交通场景中的语义信息，如交通标志、行人意图等，从而提升决策制定的准确性和安全性。

来看一些典型成果的分析。

DetDiffusion：协同生成模型和感知模型，以增强数据生成和感知

https://arxiv.org/abs/2403.13304

DetDiffusion是一个结合了生成模型和感知模型的框架，旨在提高数据生成和感知的性能。DetDiffusion的目标是通过感知信息增强图像生成质量，并促进下游感知任务的性能。模型通过在生成过程中提取和利用感知属性（Perception-Aware Attribute, P.A. Attr）来定制数据增强。感知属性为一种特殊的标记，通过预训练的检测器（如Faster R-CNN或YOLO系列）从图像中提取对象属性，属性包括类别、位置和检测难度，这些属性被设计为特殊的标记，以帮助扩散模型生成与感知模型训练目标更一致的图像。此外，模型通过分割引入了感知损失（Perception-Aware Loss, P.A. Loss），从而提高了质量和可控性。感知损失是一种新颖的损失函数，利用来自分割头的丰富视觉特征，以实现更精细的图像重建。它结合了掩码损失（mask loss）和dice损失，特别针对感知增强进行优化。

DetDiffusion的编码器使用预训练的Vector Quantized Variational AutoEncoder (VQ-VAE)，将原始图像编码到潜在空间。文本编码器使用预训练的CLIP模型将文本条件编码。然后连接一个包含不同尺寸的resnet和transformer网络的UNet，用于生成过程，并通过交叉注意力机制整合条件变量。模型还基于UNet中间特征的分割模块引入分割头，用于生成对象掩码，与标签真实值结合以增强可控性。训练时，首先利用感知属性作为条件输入，通过感知损失进行监督，生成高质量的图像。然后通过优化模型的高维特征空间，使用感知信息进行更准确的图像合成。

结果显示，DetDiffusion在图像质量和与布局的一致性方面超越了现有的图像（L2I）模型，并且在目标检测任务中表现出色，显著提高了检测器的训练性能。生成的图像与真实图像在视觉上高度一致，展现了模型在图像生成方面的高保真度和准确性。

DriveDreamer：迈向真实世界的自动驾驶世界模型

https://arxiv.org/abs/2309.09777

DriveDreamer是一个为自动驾驶设计的现实世界驱动的世界模型，它能够生成高质量的驾驶视频和驾驶策略。DriveDreamer利用扩散模型（diffusion model）来构建对复杂环境的全面表示，它采用两阶段训练流程，首先让模型理解结构化交通约束，然后赋予模型预测未来状态的能力。第一阶段训练Auto-DM（Autonomous-driving Diffusion Model），用于模拟和理解真实世界驾驶视频。该阶段以结构化交通信息作为条件输入，包括高清地图（HDMap）和3D盒子（3D box），使用时间注意力层（temporal attention layers）增强生成视频帧的一致性。第二阶段训练ActionFormer，它是用于基于驾驶动作预测未来的交通结构条件。具体为利用门控循环单元（GRU）迭代预测未来的隐藏状态，这些状态随后被解码成未来的交通结构条件。

DriveDreamer模型包括一个条件编码器，用于嵌入不同的条件输入，如参考图像、HDMap、3D盒子和动作。然后通过扩散步骤估计噪声并生成与输入噪声的损失，以优化Auto-DM。最后通过交叉注意力促进文本输入与视觉信号之间的特征交互，使文本描述能够影响生成的驾驶场景属性。训练时通过文本提示动态调整生成视频的风格，例如天气和一天中的时间。还可以通过编码历史驾驶动作和Auto-DM提取的多尺度潜在特征，生成合理的未来驾驶动作。DriveDreamer还可以扩展到多视图图像/视频生成，使用视图注意力层来保持生成内容的一致性。

DriveDreamer模型的创新之处在于其对真实世界驾驶场景的深入理解，引入了Auto-DM和两阶段训练流程，以及能够生成与交通约束高度一致的驾驶视频和基于历史观察的合理驾驶策略。这为自动驾驶的实际应用提供了一个强大的工具，特别是在提高驾驶安全性和效率方面。

DriveDreamer-2：LLM增强的世界模型，用于多样化的驾驶视频生成

https://arxiv.org/abs/2403.06845

DriveDreamer-2是一个根据用户描述生成用户自定义的驾驶视频，增强了生成视频的多样性和定制化能力。它在DriveDreamer的基础上进行了增强，并整合了大型语言模型（LLM）。DriveDreamer-2首先集成了一个大型语言模型（LLM）接口，用于将用户的查询转换成代理轨迹（agent trajectories）。然后通过HDMap生成器基于轨迹生成遵守交通规则的高清地图（HDMap），作为视频生成的背景条件。文章引入一个统一多视图模型（UniMVM），用于在DriveDreamer框架内生成多视图驾驶视频，统一了视角内和视角间的一致性。通过调整掩码（mask），UniMVM能够实现基于初始帧、前视视频输入以及无需图像输入的视频生成。

模型能够实现定制化交通模拟，即利用构建的功能库对大型语言模型进行微调，使其能够基于用户文本输入生成代理轨迹。并且，HDMap生成器使用扩散模型来模拟道路结构，将之前生成的代理轨迹作为条件输入。DriveDreamer-2能够生成高质量的驾驶视频，其Fréchet Inception Distance (FID)和Fréchet Video Distance (FVD)分数分别为11.2和55.7，相比之前的方法有显著提升。总体来说，DriveDreamer-2的主要贡献在于：（1）它提出了一个使用文本提示生成多样化交通条件的交通模拟管道。（2）引入UniMVM框架提升了生成视频中的时间和空间连贯性。（3）通过大量实验验证了DriveDreamer-2生成多样化定制化视频的能力，并且提升了下游任务的性能。

GenAD：生成式端到端自动驾驶

https://arxiv.org/abs/2402.11502

文章介绍了一个名为GenAD（Generative End-to-End Autonomous Driving）的框架，旨在通过生成模型直接从原始传感器数据中生成自动驾驶的规划结果，实现生成式端到端自动驾驶（Generative End-to-End Autonomous Driving）。本文探索了端到端自动驾驶的新范式，其中关键是如何根据过去的场景演变预测自我汽车和周围环境，将自动驾驶转变为生成建模问题。文章提出了一个以实例为中心的场景表示（Instance-Centric Scene Representation），首先使用一个场景标记器（scene tokenizer）将周围场景转换为具有地图意识的实例令牌（map-aware instance tokens）。然后通过背景网络提取图像特征，并将它们转换到3D鸟瞰图（BEV）空间。最后使用交叉注意力（cross-attention）和自注意力（self-attention）机制来细化地图和代理（agent）令牌，同时整合实例和地图信息。然后，使用变分自编码器（VAE）学习将真实轨迹映射到高斯分布的潜在空间，以模拟轨迹的不确定性和结构化先验，以进行轨迹先验建模（Trajectory Prior Modeling）。最后，为实现潜在未来轨迹生成（Latent Future Trajectory Generation），采用门控循环单元（GRU）对潜在空间中的实例进行自回归建模，以生成更有效的未来轨迹。

GenAD框架将自动驾驶视为一个生成问题，通过在结构化潜在轨迹空间中采样，并使用学习到的时间模型来生成未来场景，同时执行运动预测和规划。在训练阶段，使用实例分布和真实轨迹分布之间的Kullback-Leibler散度损失来强制分布匹配。在推理阶段，丢弃未来轨迹编码器，根据实例令牌的条件在潜在空间中采样，并使用学习到的时间模型生成未来轨迹。在nuScenes基准测试中进行了广泛的实验，证明了GenAD在基于视觉的端到端自动驾驶中取得了最先进的性能，并且具有高效率。

MagicDrive：具有多种 3D 几何控制的街景生成功能

https://arxiv.org/abs/2310.02601

文章介绍了一个名为MAGICDRIVE的框架，它是一个用于生成多视角街道视图图像和视频的模型，这些图像和视频可以捕捉精细的3D几何细节和各种场景描述。该框架通过定制的编码策略，实现了对相机姿势、道路地图、3D边界框和文本描述的精确控制。为了实现多样化的3D几何控制，模型需要理解不同相机姿势（Camera Pose）下的视图，包括内部参数（如焦距）和外部参数（如相机在世界坐标系中的位置和旋转）。模型以道路地图作为背景条件，提供了道路的二维网格格式信息，包括道路、人行道、交通标志等。3D边界框（3D Bounding Boxes）用于表示场景中对象的位置和尺寸，包括车辆、行人等，每个边界框由其8个角点的坐标定义。

通过定制编码策略提供多样化的 3D 几何控制，包括：（1）场景级编码（Scene-level Encoding）：使用模板构建文本提示，并利用预训练的CLIP文本编码器处理文本描述。（2）3D边界框编码（3D Bounding Box Encoding）：使用交叉注意力机制对每个边界框进行编码，包括类别标签和边界框位置。（3）道路地图编码（Road Map Encoding）：使用额外的编码器分支来处理道路地图信息，实现视图转换和与3D边界框的协同。此外，为了保持不同相机视角之间的一致性，MAGICDRIVE引入了一个交叉视角注意力模块（Cross-View Attention Module）。该模块允许目标视图从其相邻的左侧和右侧视图中获取信息，并通过注意力机制进行信息聚合。在训练时，使用分类器自由引导（Classifier-Free Guidance, CFG）来加强条件引导的影响，简化了在训练中丢弃条件的策略。

实验结果显示，MAGICDRIVE在生成现实感强、与3D注释高度一致的街道视图方面表现出色，可以显著提高BEV分割和3D目标检测任务的性能。MAGICDRIVE框架通过其定制的编码策略和交叉视角注意力模块，实现了对街道视图生成的精确控制，同时保持了多视角之间的一致性，为自动驾驶领域的3D感知任务提供了强大的数据支持。

CarDreamer：基于世界模型的自动驾驶开源学习平台

https://arxiv.org/abs/2405.09111

CarDreamer是一个为自动驾驶开发和评估基于世界模型（World Model, WM）的强化学习（Reinforcement Learning, RL）算法的开源学习平台。CarDreamer的架构包括三个主要部分：内置任务、任务开发套件和世界模型背骨：（1）世界模型Backbone（World Model Backbone）：集成了最先进的世界模型，如DreamerV2、DreamerV3和Planning2Explore，使用户能够轻松地再现RL算法的性能。这些模型通过标准的Gym接口与其他组件解耦和通信。（2）内置任务（Built-in Tasks）：提供了一系列高度可配置的驾驶任务，这些任务与Gym接口兼容，并配备了经验优化的奖励函数。任务包括变道、超车等，允许在难度、可观察性、观察模态和车辆意图交流方面进行广泛定制。（3）任务开发套件（Task Development Suite）：通过API提供了一系列功能，包括API驱动的车辆生成和交通流控制，以及模块化的观察者（Observer）用于轻松收集多模态数据。此外，还有一个可视化服务器，允许用户通过浏览器实时追踪代理驾驶视频和性能指标。

使用DreamerV3作为模型Backbone，在CarDreamer中的不同任务上进行训练和评估。实验结果展示了在不同驾驶任务中WM的性能。文章评估了在不同观察模态（BEV、相机、激光雷达）下，世界模型预测未来状态的能力。实验结果表明，无论观察模态如何，世界模型都能准确预测未来。此外，CarDreamer允许车辆之间进行不同程度的通信，包括视野共享和意图共享。实验结果表明，通信可以显著提高交通的安全性和效率。

#GaussianLSS

迈向真实世界的BEV感知~

鸟瞰图（BEV）感知作为三维感知任务（如三维目标检测和 BEV 分割）的基础，对于理解驾驶环境至关重要。准确的空间理解在下游的运动预测和规划中也发挥着关键作用，而BEV 通过为传感器融合提供一个稳健的中间表示，促进了有效的多模态融合。

论文链接：https://arxiv.org/pdf/2504.01957
项目链接：https://hcis-lab.github.io/GaussianLSS/

现有的 BEV 感知方法大致可以分为两类范式：

2D 反投影方法，通过估计深度并将特征反投影到 3D 空间；
3D 投影方法，将预定义的 3D 坐标体积投影到相机视图上并聚合图像特征。尽管这些范式取得了显著进展，但它们通常涉及准确度、计算成本和可扩展性之间的权衡，限制了它们在现实场景中的适用性。

3D 投影方法在准确度方面达到了SOTA的水平，然而，它们对 3D 网格的依赖导致了较高的计算成本，使其不太适合实时应用。为了克服这些限制，作者引入了 GaussianLSS，这是一种基于 2D 反投影的方法，通过引入新颖的深度不确定性建模技术，在准确性和效率之间取得了平衡，以满足自动驾驶应用的实时性要求。

图1展示了 GaussianLSS 推理速度和性能的对比，可以看到作者提出的方法在推理速度和效果上有着非常不错的权衡：

本文的主要贡献如下：

引入了 GaussianLSS，这是一种针对 BEV 感知量身定制的新型深度不确定性建模方法，它捕获并利用深度模糊性来改善空间表示。
提出了一种计算效率高的方法，将深度不确定性转换为 3D 概率分布，并将其与 Gaussian Splatting 无缝集成，以实现快速准确的 BEV 特征聚合。
GaussianLSS 在 2D 非投影方法中实现了最先进的结果，并且与 3D 投影方法具有竞争力。此外，它还显着减少了内存使用量和推理时间，使其非常适合现实世界的自动驾驶应用。

相关工作3D 投影的目标检测/分割

3D 投影方法将预定义的 3D 体素点映射到图像平面上以采样特征，消除了对显式深度估计的需求。这种方法通过将特征放置在合理的 3D 位置，绕过了直接深度预测的复杂性。值得关注的工作有，BEVFormer 和 SimpleBEV等，采用网格采样来高效地在 BEV 平面上聚合多视图特征。为了应对网格分辨率的挑战，PointBEV 引入了一种从粗到细的训练策略，从密集网格过渡到稀疏网格，这在保留准确度的同时减少了内存消耗。尽管取得了这些进展，与 2D 反投影方法相比，3D 投影方法仍然计算密集，限制了它们在现实应用中的可扩展性。

隐式 2D 反投影的目标检测/分割

隐式 2D 反投影方法利用基于 Transformer 的架构和 MLP，从 2D 图像到 3D 空间进行学习映射，而无需显式预测深度。这些方法侧重于通过在交叉注意力框架中整合 BEV 网格查询和相机感知位置嵌入，隐式地学习空间关系和深度线索。然而，由于投影是隐式的，这些方法在处理深度模糊性时面临挑战。另外，随着 BEV 网格和图像分辨率的增加，它们的计算复杂度显著增加，使其在高分辨率应用中效率较低且可扩展性较差。这些限制限制了它们在需要精确空间表示的详细场景中的实用性。

显式 2D 反投影的目标检测/分割

Lift-Splat-Shoot (LSS) 引入了一个高效的流程，将 2D 特征提升到 3D，这一设计已成为 3D 感知任务的基础。这种方法严重依赖于准确的深度估计，这使得它对深度预测误差敏感，这些误差可能会传播到 BEV 表示中。为了缓解这一问题，后续工作增加了深度监督作为辅助损失，以提高深度准确性。尽管这些方法使用概率深度分布来软性提升特征，但它们通常缺乏对深度不确定性的显式表示。这一限制阻碍了它们在复杂场景中有效处理深度模糊性的能力。GaussianLSS 通过将深度不确定性显式建模为概率分布的方差来解决这一问题。这种不确定性感知的深度表示减少了对精确深度估计的依赖，允许模型捕捉围绕深度均值的可变空间范围，见图2。

不确定性建模

不确定性建模是一种广泛采用的方法，用于捕捉计算机视觉任务中的模糊性，应用领域包括语义分割、单目深度估计和新视图合成。估计不确定性的常见方法包括：

预测分布的方差：基于预测概率分布的方差来衡量不确定性，直接表明对输出的置信度。
基于 MLP 的不确定性估计：使用多层感知器（MLP）输出单个不确定性分数或预测由均值和方差描述的分布，其中方差作为不确定性度量。
贝叶斯网络：引入概率先验分布，以原理性框架对不确定性进行建模。

这些方法各自提供了独特的不确定性建模方式，支持在各种场景中进行更稳健的预测。在作者的工作中，作者通过关注深度分布的方差来采用不确定性建模，利用它增强 BEV 分割性能，特别是在存在深度模糊性的情况下。

GaussianLSS 模型

作者的目标是将深度不确定性建模整合到 BEV 表示流程中，以应对现实场景中的深度模糊性挑战。GaussianLSS 的概述如图 3 所示。

GaussianLSS 首先预测每个像素的深度分布，提供相应深度不确定性的估计。利用相机的投影矩阵，作者定义了一个相机视锥空间，将这种深度不确定性转换为由均值和协方差矩阵表示的 3D 分布。为了实现高效的 BEV 特征绘制，作者在 3D 高斯表示中引入了一个不透明度参数，从而可以使用高斯绘制光栅化。然而，作者观察到由于相邻像素之间深度均值不一致，BEV 特征可能会出现失真。为了解决这一问题，作者采用了多尺度 BEV 渲染方法。

深度不确定度建模

作者首先回顾开创性工作 Lift-Splat-Shoot。它首先将深度范围 [d_min, d_max] 离散化为 B 个箱子。这创建了一个离散深度集合 D：

然后作者将 D 与像素坐标关联起来，创建一个相机视锥空间。对于图像中的每个像素 p，网络预测一个上下文向量和一个深度分布，其中表示 B 维概率单纯形。对于给定的深度 d，与视锥空间中的点相关联的特征定义为上下文向量按相应深度分布系数缩放的结果：

然而，这种软分配机制存在几个缺点：

稀疏 BEV 投影：离散化深度的不连续性导致稀疏的 BEV 投影，从而在 BEV 表示中产生不完整的空间覆盖。
不稳定的深度分布：深度分布是通过 softmax 操作获得的，但 softmax 可能会对相邻的深度箱产生截然不同的概率。这导致 BEV 特征不一致，因为相似的深度可能由于深度值的微小变化而获得不成比例的关注。

因此，作者提出了一种不确定性感知的深度建模方法，通过引入连续的深度表示并显式建模深度不确定性，从而缓解这些问题，允许更平滑、更可靠的 BEV 特征聚合。作者通过建模深度分布的方差来捕捉深度不确定性。设 P 为每个像素的深度分布，对于每个像素 p，作者计算深度均值和方差，其中和分别表示第 i 个箱子的深度值及其概率。使用误差容差系数 k，作者定义了一个软深度估计范围。这个范围容纳了深度不确定性，允许通过捕捉均值周围的分布范围来进行更灵活、更可靠的深度投影（见图 2）。

3D 不确定度转换

作者在深度空间中生成了一个软深度估计，然后将其转换为 3D 表示。给定视锥空间中的一个点，其中 u 和 v 表示像素坐标，d 是深度，作者使用相机内参 I 和外参 E 将 p 反投影到 3D 坐标中：

其中是在自车坐标系中的反投影 3D 点。然后作者通过以下公式计算点 p 的 3D 均值和协方差：

其中是与每个深度箱 i 相关联的概率，表示像素 p 对应深度的 3D 点。因此，软深度估计被转换为一个 3D 高斯分布，其中均值表示分布在 3D 空间中的中心，描述其分布范围。如上一节所述，作者应用误差容差系数 k 来定义围绕的 3D 不确定性范围。这个软 3D 范围由一个以为中心的椭球体表示，定义为：

其中 x 是 3D 空间中的任意一点。这个椭球体基于深度估计的范围捕捉了 p 在 3D 位置上的不确定性。作者将这种转换记为 T：

其中表示转换后的 3D 不确定性。

BEV Features Splatting

在本节中，作者描述如何将深度不确定性与预测的特征整合后高效地绘制到 BEV 表示中。

Gaussian Splatting

Gaussian Splatting 使用由 3D 均值、3D 协方差矩阵和不透明度定义的 3D 高斯分布来建模 3D 场景：

然后，这些高斯分布被投影并使用 alpha 混合渲染到 2D 平面上：

其中是每个点的颜色，C 是混合后的计算颜色。

BEV feature rendering

对于来自 n 个多视图相机的每张输入图像，作者提取多相机特征，并使用一个简单的 CNN 层获得绘制特征、深度分布和不透明度。然后，如上一小节所述，作者生成每个像素的 3D 表示，其中每个包括 3D 空间坐标和协方差矩阵。通过将这些 3D 表示与特征图 F 和不透明度整合，作者获得了一组高斯分布。接下来，n 组高斯分布被合并并投影到 BEV 平面上。将它们投影到 BEV 平面的实现方法是对原始投影方法进行了略微修改，详细内容在论文的补充材料中介绍。最后，作者将替换为，将特征 F 绘制到 BEV 平面上，得到如下 BEV 特征：

其中表示在 BEV 平面上每个位置 x 处的渲染 BEV 特征。为了应对相邻像素之间深度估计不一致的问题，作者提出了一种多尺度 BEV 特征渲染方法。该方法在不同分辨率（例如 50×50 或 200×200）的 BEV 平面上投影 G，有效地捕获分层空间表示。得到的多尺度特征随后被上采样并融合，以匹配目标 BEV 分辨率。最后，融合后的特征被送入分割头以产生最终预测。

实验及结果

作者在 nuScenes 数据集上评估了 GaussianLSS。

与现存方案的对比

作者将 GaussianLSS 与基于反投影和投影的方法进行了比较。如表 1 所示，GaussianLSS 在所有基于反投影的方法中表现最佳，并且与基于投影的方法相比具有相当的性能。作者观察到，即使使用多尺度渲染，GaussianLSS 在预测对象形状方面仍然比基于投影的方法差，但能够捕捉到更远距离的对象。

此外，表 2 比较了行人类别分割，而表 3 显示了推理速度和内存消耗。GaussianLSS 实现了 80.2 FPS，比 PointBEV 快 2.5 倍，展示了其效率。除了列出的任务外，作者还在其他应用中评估了 GaussianLSS，包括地图分割和 3D 目标检测。这些结果进一步验证了 GaussianLSS 在不同任务中的多功能性，显示了不确定性表示的有效性。

误差容差系的消融实验

误差容差系数 k 是作者不确定性建模方法中的一个关键参数。它通过控制围绕每个 3D 点的椭球体的大小，定义了 3D 不确定性表示的空间范围。较小的 k 限制了绘制到高置信度区域，但可能会忽略物体的有效范围；而较大的 k 虽然纳入了更多的不确定区域，但以牺牲精度为代价。这种平衡对于有效的 BEV 特征表示至关重要。

分析结果如图 4 所示。另一方面，作者也尝试直接预测一个固定的范围，而不是建模不确定性。通过比较这两种方法，作者旨在突出将不确定性纳入 BEV 特征提取过程的优势，因为直接预测范围会导致性能降低 1.3%。

深度不确定度分析

作者评估了 GaussianLSS 在不同距离上从自车的性能，重点关注其准确表示远距离物体的能力。为此，作者通过排除距离自车一定近邻阈值内的预测来计算 IoU。图 6 比较了 GaussianLSS 与基于投影的最先进方法 PointBEV。两种模型都表现出随着距离增加而准确度下降的相似趋势，这是由于深度模糊性增加所致。

然而，GaussianLSS 在处理远距离物体方面表现出优势。通过显式建模和利用深度不确定性，GaussianLSS 在超过 30 米的距离上提供了更准确的对象表示。当最大深度设置为 61 米时，性能降至零。

特征渲染中的不透明度

特征渲染中的不透明度可以被视为一种加权求和机制，引导模型关注语义相关区域。高不透明度区域代表置信度高、贡献大的特征，而低不透明度区域则被弱化或可以过滤掉以提高效率。经验表明，在训练后，80% 的高斯分布的不透明度低于 0.01，突出了模型在识别和将关键区域投影到 BEV 空间方面的效率，如图 7 所示。

定性结果分析

作者在图 5 中展示了定性结果。黄色区域表示在特征提升过程中由于低不透明度值而被屏蔽的区域，确保模型专注于语义重要的特征。GaussianLSS 即使在存在遮挡和杂乱的复杂城市场景中，也能捕捉到关键区域，如车辆。这突出了 GaussianLSS 在学习有意义的特征的同时过滤不相关区域的有效性，从而实现准确且高效的 BEV 表示。

图 8 展示了模型在长距离感知方面的鲁棒性，涵盖了 8 种不同场景。作者可视化了在 BEV 平面上绘制后的不确定性感知特征。尽管长距离感知存在固有挑战，包括深度模糊性增加，GaussianLSS 利用不确定性感知特征专注于感兴趣区域，同时保持 BEV 投影的准确性。

总结

作者提出了 GaussianLSS，这是一种新颖的 BEV 感知方法，它将深度不确定性建模与高效的多尺度 BEV 特征渲染相结合。通过将每个像素的深度不确定性转换为 3D 高斯表示，GaussianLSS 有效地解决了深度模糊性的固有挑战，同时实现了将特征稳健且准确地投影到 BEV 空间中。作者在基于反投影的方法中实现了最先进的性能，并且在显著降低内存使用量和推理时间方面表现出色，使其非常适合用于现实世界的自动驾驶应用。

#LLVM-AD 2025

多模态LLM与世界模型塑造自动驾驶驾驶新格局

近日，第三届大型语言与视觉模型自动驾驶研讨会(LLVM-AD 2025)在WACV 2025会议成功举办！作为连接AI技术与自动驾驶领域的重要桥梁，本次研讨会汇聚了全球顶尖专家学者，共同探讨前沿技术与未来发展方向。基于本次研讨会的内容，团队发布了一篇Position Paper: Position: Prospective of Autonomous Driving - Multimodal LLMs, World Models, Embodied Intelligence, AI Alignment, and Mamba 讨论了自动驾驶未来的重点方向。

Link: Position: Prospective of Autonomous Driving - Multimodal LLMs World Models Embodied Intelligence AI Alignment and Mamba

LLVM-AD研讨会介绍

LLVM-AD研讨会致力于促进大型语言模型与计算机视觉技术在自动驾驶领域的创新应用。随着人工智能技术的迅猛发展，如何有效利用这些技术突破自动驾驶的关键挑战，成为学术界与产业界共同关注的焦点。首届研讨会在WACV 2024举办，本次研讨会是LLVM-AD的第三届，共展示了共十篇精选论文，涵盖场景理解、轨迹预测、多模态融合、感知系统优化等自动驾驶核心技术。每篇论文均安排8分钟展示与2分钟问答环节，确保深入而高效的学术交流。

最佳论文奖揭晓：经LLVM-AD评审委员会严格评选，本届研讨会最佳论文奖授予”Query3D: LLM-Powered Open-Vocabulary Scene Segmentation with Language Embedded 3D Gaussians”，该论文创新性地将大型语言模型与3D高斯表示相结合，实现了开放词汇的场景分割，为自动驾驶感知系统带来了全新解决方案。

最佳挑战论文奖：”Evaluating Multimodal Vision-Language Model Prompting Strategies for Visual Question Answering in Road Scene Understanding ”荣获最佳挑战论文奖，该研究系统评估了多模态视觉-语言模型在道路场景理解中的提示策略，为自动驾驶系统中的视觉问答任务提供了重要参考。

开放数据集挑战：研讨会重磅推出面向真实世界高精地图理解的开放数据集MAPLM-QA v2.0挑战，包含丰富的多样化交通场景，旨在促进自动驾驶感知算法的公平比较与快速迭代。该挑战将为参与者提供宝贵的实验平台，推动算法从实验室走向实际应用环境。

顶级学者分享前沿研究

三位来自学术界与产业界的国际知名专家带来了精彩纷呈的主题演讲：

Burhan Yaman博士（博世研究院）：Representation Alignment for Autonomous Driving深入探讨了如何通过表示学习优化自动驾驶感知系统，解决数据多样性与模型泛化能力的关键问题，提供了弥合算法研究与实际部署差距的新思路。
Manmohan Chandraker博士（UCSD & NEC美国实验室）：Towards Safe Open-World Autonomy分享了在开放、动态环境中构建高可靠性自动驾驶系统的最新研究成果，特别关注如何处理边缘情况和未知场景，为自动驾驶安全保障提供了理论与技术支撑。
Hang Zhao博士（清华大学）：Fast-Slow Dual Autonomous Driving Systems创新性地提出了结合快速反应与深度规划的自动驾驶架构，平衡了实时性与决策质量的关系，展示了自动驾驶系统设计的新范式。

🌐 更多研讨会详情，请访问官方网站：https://llvm-ad.github.io/

#距离人人都能生成百万运镜短视频还有多久？

现在的AIGC学术成果可以说是呈现日均井喷的状态，每天如果不及时浏览最新论文，过不了几日就会堆积如山。不看一日如隔三秋，AI一天人类一年。尽管如此，视频生成产品的商业化仍然属于早期，路程依然很崎岖。“一眼假”、“生成慢”、“效果不确定”的评论常常伴随着视频生成模型或产品的新版本发布“同步上线”。

视频生成大模型目前究竟发展到什么样的一个水平如何？

从模型效果的sota到产品令人“眼前一亮”，究竟有多大的gap要弥补？

距离人人拥有随心定制百万运镜的时刻还有等待多久？

于是，首期AIGC炼丹煮茶线上圆桌就在这样的“疑惑”中诞生了。该场圆桌聚焦AIGC前沿技术与商业化发展，主持人Gloria和闻星、张浩杰两位特邀嘉宾一起深入探讨了视频生成领域的现状、挑战与未来。讨论首先回顾了视频生成技术的关键模型，如DDPM、Flow及AR（自回归）范式，并指出当前技术在实现物理真实性和视频长度的完美结合上仍面临挑战，还涉及了模型可控性、提示词对生成质量的影响，大模型在生成视频方面当前取得的阶段性成果与仍然存在的不足。在最后一个环节，主持人Gloria展示了国内主流的几款视频生成软件对通过同一张图和同一段提示词生成视频的效果，并邀请了嘉宾和观众一起点评与展望。

关键词：AIGC, 视频生成, 评估基准，真实性, 可控性, 创造力, 物理性, 常识, 人体真实性

炼丹时刻1：视频生成效果如何评估

圆桌第一部分由嘉宾闻星分享一个专注于AI论文的平台--PaperScope ，共收集了 190 多篇最新视频生成领域相关论文（截止分享当天）。这些论文展示了视频生成技术的最新进展，为研究人员和从业者提供了丰富的研究资料。同时，他还分享了 VBench 2.0 评估基准，包含有两种评估方法，一种是文本描述对齐，另一种是基于视频的多问答。相比上一个版本-- VBench 1.0，VBench 2.0 更注重从真实性、可控性、创造力、物理性和常识五个维度评估视频生成模型的内在质量，更全面地对当下视频生成模型的性能进行评估，为模型的发展和优化提供了重要的参考依据。

以上为闻星老师用大模型生成的ppt截图

随后，闻星对这5个维度进行了展示。

第一个维度专注于人类真实感，分为三个部分：评估角色图像的结构准确性和时间一致性。这包括评估解剖学上的正确性，例如识别手、脸和身体上的不自然变形，以及确保时间上的连贯性。例如，整个视频中的服装保持不变。
第二维度是创造力，它评估模型生成多样化输出和处理复杂组合的能力。多样性通过样本的风格和内容变化来衡量，而组合则评估对象互动、单一实体运动和多实体动态。
第三维度是可控性，评估模型对复杂姿势和动态变化的遵循程度，例如空间变换、动态属性、运动序列的理解、人机交互、复杂景观、复杂情节和镜头运动。
第四维度涉及对现实世界物理原理的遵循，包括力学（例如，水滴下落、球体弹跳）、热力学（例如，相变如汽化、液化、升华）、材料属性（例如，颜色混合、硬度、可燃性、溶解性）和几何多视角一致性。
第五维度评估视频生成中的推理能力——动作是否合理并产生现实后果。例如，虚拟动作如边走边吃但没有前进运动，会评估其逻辑一致性。

以各家今年发布的最新版视频生成模型在Vbench 2.0的评估结果来看：

Sora在人类真实感和创造力方面表现出色，但在可控性和物理方面表现不佳。
Kling 1.6在推理和与镜头相关的维度上表现强劲，同时在其他方面保持平衡性能。
CodeVideo X1.5在物理和复杂提示方面挣扎，特别是在以人为中心的维度上。
MemberVideo在与人相关的方面取得了令人印象深刻的结果，但在其他维度上滞后。

而这些模型共同的局限性则可以归结为：视频时长普遍不够长短，动态变化和空间关系的挑战依然存在，这也是当前视频生成领域前进道路的“拦路虎”。

随后，闻星介绍了CompassHub 司南评测集社区。作为司南评测体系的重要组成部分，旨在打创新性的基准测试资源导航社区，提供丰富、及时、专业的评测集信息，帮助用户了解模型在各细分领域的能力边界。与此同时，他针对当前领域发展现状，探讨了视频生成技术的资源需求和商业化潜力，比如是否可以通过会员制、广告等方式补贴项目成本。

炼丹时刻2：硬核解读视频生成领域的“前世今生”

圆桌第二部分，嘉宾浩杰带大家回顾了视频生成领域的“前世今生”。他深入探讨了视频和图像生成技术的最新发展，特别是从技术和方法论角度分析了当前领域的三点：痛点、亮点与难点。

当前的视频生成模型与图像生成的原理本质上是相同的。无论是扩散生成方式还是其他方法，其核心目标都是从一组图像样本中构建一个分布。如果这个分布能够准确反映现实世界或自然规律，那么通过随机采样，可以生成符合物理规律和人类认知的新图像。目前，所有生成模型的核心目标都是通过优化数据和模型结构，构建更高质量的分布，从而生成更逼真、更符合人类指令的结果。

从技术范式来看，目前主流的方法包括DDPM、Flow-based和自回归模型（AR）。DDPM路线始于2020年，并在2022年由Stable Diffusion实现成熟化。随后，DiT架构进一步推动了这一领域的发展，而SiT则通过Flow-based方法显著提升了采样效率，减少了生成所需的步数。

另一种范式是自回归模型（Autoregressive Model，简称AR模型），例如最近发布的GPT-4o。自回归模型类似于GPT系列，但针对图像生成时存在一些挑战。大多数之前提到的方法都基于DDPM或Flow。但AR范式，这是一种更为原生的方法，可以理解为一个多模态模型，旨在将数据（包括文本、图像和视频）统一编码到一个空间中。然后，它利用类似于GPT的下一个标记预测范式来训练生成模型。这里没有太多捷径可走——需要一个标记化工具和一个类似GPT的训练过程。

图像数据缺乏文本中的因果关系，传统的自回归方法就显得不太适合。去年的一些工作，如MAR和VAR，突破了传统自回归的限制，证明了自回归模型在质量上可以与DDPM或Flow-based模型竞争，甚至超越它们。但总体来看在视频生成领域，自回归范式的创新相对较少。

对比视频生成与图像生成，二者主要区别在于时序建模。早期的视频生成方法通常将视频视为连续的图像帧，逐帧生成。但视频的时序特性带来了额外的复杂性，这也是未来研究的重要方向。

早期的视频处理方法是将视频视为一系列图片帧，本质上是一种视频流。在模型内部，时间维度和空间维度分别被处理。在时间维度上，每一帧被当作Token处理；在空间维度上，每一帧内部的Token被单独处理。这种方法在模型较小时可行，但能力有限且建模复杂。

后来，混元和CogVideo等模型开始将连续视频帧作为一个Token处理，这种Token可视为一种立方格，同时涵盖时间跨度和空间跨度。这种建模方式更为高效，但需要更大的数据量和模型规模来同时捕捉时间和空间特征。更大的数据和模型也意味着更强的学习能力。

视频生成领域的另一个重要方向是视频压缩。Stable Diffusion之所以能生成高分辨率图片和视频，是因为采用了VAE（变分自编码器）来压缩原始图像。理论上，长视频的压缩率可以高于单张图片，因为每一帧都能提供额外信息。因此，VAE压缩成为视频生成中的关键方向。

去年，LTX Video以相对较小的模型参数实现了高分辨率视频生成，其核心在于VAE压缩技术。它能够实现高压缩率，使更多开发者能够使用。从LTX Video的示例可以看出，其VAE压缩基于固定帧数的视频流，与图片相比，视频只是扩展了图片的范围。

圆桌中，浩杰还介绍了多种下游任务中的应用展开，包括三维重建、可控视频生成、多视角视频生成、风格转换以及数字人视频生成，并强调了视频模型的生成能力及其在保持视觉一致性的同时，如何应用于如三维重建、基于运动序列的视频生成、多视角视频生成等任务。此外，他还提到了构建4D数据集的挑战以及风格转换的难度，以及如何通过科学的训练策略联合多种条件驱动视频生成，如音频和姿势信息在数字人生成中的应用。

在介绍完几项代表性工作后，浩杰总结了当前视频生成的现状：本次圆桌所讨论的方法针对的是更小、更具体的子任务。然而，这两个方向都需要大规模数据和计算能力来构建用于采样和实现预期结果的稳健分布。

对于特定任务的视频生成，构建此类数据集尤其具有挑战性。例如，通过运动引导或多摄像头设置生成视频需要大量的数据收集，如4D数据。因此，当前视频生成的首要挑战是数据创建。
条件建模无论是针对文本、音频还是其他引导——仍然相对简单。没有太多巧妙技巧的空间；大规模数据和模型优于复杂但扩展性较差的方法。这是当前的现状。

对于当下视频生成领域的研究者来说，首先考虑的是如何处理视频数据。目前的方法类似于图像处理，如基于patch的标记化以适应transformer架构，追溯到ViT。然而，这种方法对人类来说并不直观，因为人类是整体感知图像，而不是孤立地看待patch。去年的VAR通过模拟人类视觉——从远处的像素开始，逐渐放大，可谓是引入了新的研究视角，但这对于图像来说仍然具有挑战性，更不用说视频了。

根据人类的直觉，视频应该逐帧生成，并保持帧间关系。然而，当前有效的下一个标记预测方法，对于像文本这样的离散符号有效，但对于下一帧预测却失败了。这是一个值得探索的领域，正如LeCun在基础数据建模方面的工作所强调的。

对于个人开发者来说，参与大规模视频生成项目通常不切实际。即使是训练特定任务的模型也因数据收集障碍而困难重重。相反，我主张利用现有的视频生成模型，这些模型已经很好地捕捉了物理规则和人类直觉。

两种实用方法值得推荐：

轻量级适应：如ControlNet或T2i等方法旨在插入条件（例如，草图、深度图或运动流）而不影响模型性能。虽然将这些方法应用于视频更具挑战性，因为文本/音频相关性较弱，但这一方向可能会发展，因为特定任务的模型往往重复造轮子。
无需调优的方法：视频编辑是这方面的典型例子。与其收集大量数据集，不如通过微妙地操纵特征或向现有模型注入先验来实现编辑。这避免了从头开始训练新模型的资源密集型过程。

简而言之，该领域应优先考虑高效复用现有模型，而非冗余开发，再造新模型。

在应用层面，个人开发者可通过轻量化微调，如ControlNet或T2i等方法，利用现有模型开展特定任务。长视频生成时，可多次生成片段并注入特定条件保持一致性，但仍面临挑战。此外，如何借助现有模型，进一步提升图像生成视频的质量与效率，也是视频生成技术发展中需要探索的方向。

“煮茶时刻”：聊聊现有产品和技术的gap

圆桌第三部分开始由Gloria带领大家讨论视频生成产品与模型发展上的gap。讨论测评了几款国产产品的图像生成视频功能，通过上传相同图片和提示词，对比分析了几段生成的视频，主要从涉及镜头感、情绪捕捉、动作连贯性和物理细节等方面进行对比。

可灵：运镜感最棒

海螺ai：情绪最符合

即梦：配音最方便

清影：动作、情绪最连贯

vidu：物理细节最好

Gloria：目前有些视频生成产品的图生视频模块首尾帧是否是确保视频制定的关键因素，以及建模过程的难度如何？

浩杰：首尾帧需要模型建模两者之间的物理或逻辑关系，这个过程可能比仅提供一个首帧并让模型按照规则生成结果更具挑战性。增加尾帧后，模型需要构建因果关系，这相对更难。即使增加了尾帧，中间过程的连贯性仍难以保证，因为更强的约束可能使模型对物理规则的把握更加吃力。

Gloria：视频时长越长，一次性生成的挑战是否越高？目前感觉是越高的，尤其最后几秒拉跨概率不小

浩杰：视频时长越长，一次性生成的挑战确实越大。但这不仅取决于模型大小，还与压缩倍率有关。不过，通常情况下，模型需要处理更长的时间序列信息，任务难度随之增加。

视频时长的长短取决于模型规模和压缩倍率。压缩倍率越高，生成的视频可以越长，但任务难度也会相应增加。

闻星：浩杰老师能否为我们科普一下，不同参数量的模型需要多少资源才能生成多长或多高分辨率的视频？例如，在常规开发中，像Video这样的模型，其稳定输出通常在多少？

浩杰：这个我展开说下。像Video这样的模型，其稳定输出通常帧率大约为40帧，相当于大约2秒。最新模型的入门参数数量为50亿。训练数据集的确切大小尚不清楚，但很可能相当庞大。

在实际应用方面，生成视频所需的资源至关重要。对于50亿参数的模型，推理可能需要几GB的显存——可能大约10GB，尽管确切数字不确定。显存需求相对较高。对于本地部署，10GB或许可以应付，但可能需要高达24GB，这在消费级GPU的范围内。

闻星：确实，24GB消费级GPU代表了一个重要的门槛。

浩杰：对的，其实核心问题在于确定哪些开源模型可以在消费级GPU上运行，以及它们能够生成视频的质量。

在我看来，消费级GPU的上限可能处于混元Video的水平，我记得它大约有300亿个参数。资源消耗和输出质量之间的权衡是我认为最有趣的两个维度。

关于长视频生成，以往的方法通常通过一次生成一个片段来建模这个过程。这些方法旨在通过参考之前生成的片段信息来生成后续片段。虽然这是一种可行的方法，但它需要训练并存在某些挑战。

在训练过程中，我们使用不同长度的真实世界数据，但在生成过程中，我们必须参考之前生成的视频。这造成了生成视频和真实视频之间的显著分布差距，必须通过各种训练技术来解决这个问题。

这一范式理论上允许无限长度的视频生成，但由于这种分布差距，实际操作中会出现局限性。

由于分布差异导致的错误累积问题，生成的视频越长，物理规则破坏的程度就越严重。例如，在一分钟或几分钟后，这种破坏会更加明显。

闻星：什么是“Clip”？它指的是一个视频片段吗？能否解释一下这些片段的生成原理？比如，可以随便举一个模型来说明。

浩杰：我来解释下。考虑生成一个视频。通常情况下，对于一张图片，我们会使用当前的DiT架构对其进行分token。比如，我们可能会将其分解为32*32个token来表示这张图片。

在生成一个16帧的视频时，我们需要生成32*32乘以16帧。这个过程基本上就是这样运作的。然后，这个视频生成模型直接输出一个clip。

Gloria：我很好奇，目前视频生成的质量对提示词的依赖程度如何？我看我给前面几款视频生成产品喂的提示词里，其实有相当多的内容他没有识别到。

浩杰：我可以从一个理论的角度开始，因为我在视频生成方面的实践经验可能不如你丰富。我们的主要关注点在于我们的核心任务。

从基本的角度来看，生成过程涉及从分布中采样。这种采样本质上不需要提示，因为DDPM基本上是无条件的。然而，我们引入提示以符合人类指令。

通常，最高质量的输出——通过最小化与真实数据、图像或视频的偏差来衡量——是在没有提示的情况下实现的。更强的条件可能会降低质量，但这在模型训练过程中确定。提示质量是否影响推理尚不清楚。有经验的同学可以弹幕补充。

闻星：我对使用简短提示（比如单句）还是更长、更详细的提示，哪种方式能生成更符合物理规则的结果感到非常好奇。由于在这方面缺乏经验，我不确定是更多的约束还是更少的约束更可取。不过，我有兴趣进一步实验。

例如，我之前尝试根据诗句“春江潮水连海平，海上明月共潮生”来生成视频。当直接将这一诗句输入视频生成模型时，结果往往过于宽泛。然而，当我先使用DeepSeek或其他模型来扩展场景时，输出更好地捕捉到了诗意的画面——春江潮水和明月共同随潮水运动。

在这种情况下，利用大语言模型工具来详细描述场景似乎是必要的。虽然这种方法在这里效果不错，但可能并不普遍适用——有些单句提示如果没有额外上下文，可能无法有效转化为视频。

浩杰：这种艺术构思可能需要一个大模型来具体化成场景的文字描述。对于涉及角色情感变化和情节发展的场景，这种广泛的写作可能会对大型模型工具构成挑战，因为它们可能无法很好地处理。

Gloria：是的。之前，我的工作也展示了我是如何使用DeepSeek来制作提示的。

浩杰：我认为大部分信息尚未被充分消化，可能是由于训练不足所致。大胆猜测一下。

Gloria：来点“形而上”的讨论，从你们的角度来看，高质量的视频生成未来将在哪些方面展开竞争？可以从模型和产品两个维度进行探讨。

闻星：首先，我们可以将用户分为几类。第一类是专业的电影制作人和动画师。第二类是普通用户，他们只是想制作一些基础视频。视频生成模型降低了视频制作的门槛，使其对更广泛的受众变得可行。第三类包括像我这样的人——内容创作者或那些希望增加粉丝基数的人。

就我个人而言，我目前正在开发一个小工具，名为“paperscope”，它涉及视频生成。具体来说，输入是一篇研究论文，输出是一段完整的介绍该论文的视频。我的核心目标是增加观众数量。然而，我发现现有的平台并不能充分满足这一需求，因为它们更多地专注于总结论文，而不是直接从提示生成场景。

对于大型模型公司来说，他们的目标受众可能包括……我这种角色可能并不是他们主要争取的对象。他们的目标用户群体应该是广大的影视从业者。针对这两类用户群体，我们可以探讨他们的具体需求。

Gloria：从模型角度来看，张老师那边可以进一步讨论。

浩杰：尽管我使用视频生成模型的经验不多，但今天看到的例子让我意识到，当前的视频生成模型已经能够构建出符合物理规则的结果。不过，我认为还有两点需要改进：

第一，需要构建一个鲁棒性更强的模型，能够生成符合人类认知或物理规则的结果。第二，可控性非常重要。单纯依靠文本输入很难实现高度可控的效果。例如，GPT-4之所以受欢迎，就是因为它能根据用户需求不断调整输出结果。但在视频生成领域，我们可能需要结合文本和视觉输入，比如在图像上进行标注或修改，以获得更好的生成效果。这种多条件综合的方式对实际用户来说非常关键。

Gloria：最后一个比较有话题度的问题，两位认为视频生成产品的deepseek时刻还有多远？
浩杰：我认为关于以模型目前的成熟度，我认为短期内难以达到很高水平。当前视频生成模型存在底层理论缺陷，即使很多公司能实现分钟级生成或通过规则优化，很大程度上仍属于辅助工具。我更看好通过提示工程和易开发的模型来实现产品级别的创新。视频生成的“GPT时刻”可能更多出现在产品工具工程领域。

闻星：作为一名AI体验专家，我将努力整合各种人工智能技术的独特功能，以建立一个从研究论文到视频生成的流程。目前，我需要探索不同的视频生成工具，因为我并不完全熟悉其背后的原理。

虽然我无法提供一个确切的时间表，但我相信现有的模型能够实现上述功能。可能需要两到三周的探索来开发一个可行的流程。

正如浩杰老师所言，需要工程努力来探索利用GPT或DeepSeek级别产品的流程，这样的解决方案可能很快就会面世。

Gloria：好的，我们这边差不多了，邀请观众在评论区提出两个问题。看到已经有人发布了一个问题：“如果AR被广泛采用，图像生成或视频生成是否会经历类似于ARM的突发智能或类动物现象？例如，GPT-4的图像生成能力是否属于这一类？”

浩杰：虽然我在AR方面的专业知识有限——因为我主要工作是计算机视觉——但我认为AR在训练方面提出了重大挑战。图像生成必须首先达到成熟阶段，然后才能有效发展视频生成。这是一个顺序性的进展。

闻星：让我补充问一个基本技术问题--AR 代表什么？

浩杰：哦，是自回归。像 GPT-4 这样的模型确实是自回归的，但自从他们没有发布技术报告以来，我没看到太多显著的特征。他们只发布了一个model card，不是吗？我在想他们是否会发布技术报告

模型介绍本质上是一份技术报告，尽管它只包含几句话。虽然它没有明确揭示是否使用了自回归（AR）建模，但我推测它可能涉及对图像进行分词，然后在这些词元之间建立因果或非因果关系。然而，对于图像来说，不同区块之间的因果关系——比如在这个例子中——相对较弱。

我认为这种建模方法不太可能是最终的解决方案。虽然我可以提供这些判断，但问题仍然存在：这种方法能推进到什么程度？它能达到像GPT这样的当前模型的性能水平吗？这仍然是不确定的。

Gloria：挺好，大家今天聊得还是很充分的。总结就是视频生成路虽险，但仍然值得AIGCer前赴后继，持续征服，毕竟距离人人拥有随心定制百万运镜的时刻确实还要等待。我们后续还会有其他AIGC的主题讨论！欢迎大家参与进来。

#元戎启行联合高通基于骁龙智驾平台发布高阶智驾解决方案

要点：

技术合作旨在开发高性能智驾解决方案，利用神经网络模拟人类行为，实现更自然的交通环境理解和驾驶体验。
此次合作将优化基于骁龙智驾平台运行的端到端鸟瞰视图模型和Transformer模型，以提升在人车交互、绕行避障、窄路行驶等复杂场景下的处理能力。

2025年4月8日，深圳——国际领先的人工智能企业元戎启行与高通技术公司今日宣布达成技术合作，基于骁龙®智驾平台（SA8650）打造多款支持ADAS/AD功能且兼具高性能与成本优势的高阶智能驾驶解决方案。

元戎启行与高通技术公司签订合作协议

基于骁龙智驾平台，元戎启行的智能驾驶解决方案将涵盖激光雷达方案和纯视觉方案，两者均支持城区NOA（智能领航辅助）、高速NOA以及自动泊车等高阶智驾功能。该解决方案可适配燃油车和新能源车型，满足全球汽车制造商对不同车型的个性化需求。通过此次技术合作，双方还将基于骁龙智驾平台优化端到端（E2E）鸟瞰视图（BEV）和Transformer等AI模型。

这一端到端模型架构模拟人类神经网络，使智能驾驶系统能够更自然地理解交通环境和驾驶逻辑，特别是在复杂道路场景下具备更优表现，例如人车博弈、临停车辆绕行、不规则路口通行、窄路行驶等长尾场景。该端到端模型还能够帮助智能驾驶系统理解人类的驾驶文化。例如，当前方道路因施工受阻时，搭载该端到端模型的车辆能够实时分析路况，并迅速执行借道通行策略，实现高效通行。

在安全性方面，元戎启行针对强光、暗光、逆光等复杂光照条件进行了算法优化，提升了纯视觉方案在极端环境下的感知能力，使其核心体验达到与激光雷达方案相当的水平。

本次合作充分发挥了骁龙智驾平台的技术优势。该平台采用开放的架构，支持汽车制造商和一级供应商灵活部署摄像头感知、传感器融合、驾驶策略、自动泊车和驾驶员监测等多种ADAS算法。该平台还集成AI加速器和图像处理引擎，可同时处理来自16个摄像头、多个雷达和激光雷达的数据，实现实时环境感知与决策，支持行人检测、车道识别、障碍物规避等智驾功能，旨在充分满足高阶智能驾驶解决方案的需求。

元戎启行CEO周光表示：“高通技术公司的骁龙智驾平台是全球汽车制造商的首要选择之一。我相信，基于骁龙智驾平台打造的高阶智能驾驶解决方案，将让城区NOA等高阶智驾功能表现得更加出色，助力推动智能驾驶的大规模普及。”

高通技术公司产品管理副总裁Anshuman Saxena表示：“我们与元戎启行的技术合作，结合了元戎启行的算法能力和骁龙智驾平台的技术优势。双方携手致力于降低硬件成本，为全球用户带来高阶智能驾驶体验。期待与元戎启行持续深化合作，充分发挥其在端到端AI模型量产落地方面的成熟经验。”

关于元戎启行

元戎启行是国际领先的人工智能企业，致力于打造“物理世界的通用人工智能”，以创新技术引领智能驾驶行业变革。随着智能驾驶汽车量产上路获取大量物理世界的优质脱敏数据，元戎启行将打造具备人类高阶智慧的“AI大脑”，赋能千行百业，为人类社会发展注入全新生产力。

元戎启行由CEO周光博士带领团队于2019年创立，总部位于深圳，在全球多地有业务落地，已完成6轮融资，累计融资金额超 5 亿美元。元戎启行始终坚持自主创新，成功依托端到端模型打造新一代智能驾驶平台DeepRoute IO，并推出 VLA模型。目前，元戎启行已与多家车企建立了量产合作关系，共同推进十余款车型的落地。

关于高通公司

高通公司坚持不懈地创新，让智能计算无处不在，助力全球解决一系列最重大的挑战。依托公司40年来持续打造划时代突破性技术的领导力，我们提供一系列由领先的AI、高性能低功耗计算和无与伦比的连接所支持的丰富解决方案组合。我们的骁龙平台赋能非凡的消费者体验，而我们的高通跃龙产品助力企业和行业跃上新高度。我们携手生态系统合作伙伴赋能下一代数字化转型，丰富人们的生活、改善企业业务并推动社会进步。在高通，我们用科技成就人人向前。

高通公司包括技术许可业务（QTL）和我们绝大部分的专利组合。高通技术公司（QTI）是高通公司的全资子公司，与其子公司一起运营我们所有的工程、研发活动以及所有产品和服务业务，其中包括半导体业务QCT。骁龙和高通品牌产品是高通技术公司和/或其子公司的产品。高通专利技术由高通公司许可。

骁龙和高通品牌产品是高通技术公司和/或其子公司的产品。
高通、高通跃龙和骁龙是高通公司的商标或注册商标。

#智驾中的大模型

自动驾驶场景中的大模型1. 前言

我们知道，大模型现在很火爆，尤其是 deepseek 风靡全球后，大模型毫无疑问成为为中国新质生产力的代表。百度创始人李彦宏也说：“2025 年可能会成为 AI 智能体爆发的元年”。

随着科技的飞速发展，大模型的影响力日益凸显。它不仅在数据处理和分析方面展现出了强大的能力，还为各个领域带来了前所未有的创新机遇。在众多应用场景中，智能驾驶无疑是备受瞩目的一个领域。

智能驾驶作为未来交通的重要发展方向，具有巨大的潜力和市场需求。大模型的出现，为智能驾驶的发展注入了强大的动力。它可以通过对大量驾驶数据的学习和分析，实现更加精准的环境感知、路径规划和决策控制。例如，大模型可以实时识别道路上的障碍物、交通标志和其他车辆，预测潜在的危险情况，并及时做出相应的驾驶决策，从而提高驾驶的安全性和舒适性。

在这样的一种大趋势下，笔者将针对智能驾驶场景，讲一讲大模型的应用前景以及存在的瓶颈！！！

2.自动驾驶中的大模型

自动驾驶领域的大模型主要涵盖感知（Perception）、决策（Decision-making）和控制（Control） 等多个方面，那么可以应用于自动驾驶中的大模型可以分为；

2.1 感知层（Perception）

感知层主要依赖计算机视觉（CV）和多模态大模型（MMML），处理摄像头、雷达、激光雷达等传感器数据。

2.1.1 计算机视觉模型

Tesla Vision（特斯拉）

Tesla Vision 是特斯拉（Tesla）开发的一套基于纯视觉（Camera-only）的自动驾驶感知系统，完全放弃了激光雷达（LiDAR）和毫米波雷达（Radar），仅依靠摄像头和 AI 算法进行环境感知。该系统用于 Tesla Autopilot 和 FSD（Full Self-Driving），目前在 FSD V12 版本中已经实现端到端 Transformer 训练。

Tesla Vision 具有以下核心特点：

纯视觉（Camera-only）感知：自 2021 年起，特斯拉宣布移除毫米波雷达，完全依靠摄像头。8 个摄像头覆盖 360° 视角，包括前、后、侧方摄像头。

基于 Transformer 的端到端AI：Tesla Vision 早期使用卷积神经网络（CNN）进行目标检测、分割和轨迹预测。 FSD V12 采用端到端 Transformer 模型，用 BEV（Bird's Eye View）+ 视频 Transformer 进行感知。利用神经网络自动标注驾驶数据，大规模训练 AI 驾驶模型。BEVFormer / Occupancy Network 将 2D 视觉数据转化为 3D 环境模型，提高自动驾驶感知能力。

端到端学习（End-to-End Learning）：早期 FSD 采用模块化架构（Perception → Planning → Control），FSD V12 采用端到端神经网络，直接学习驾驶行为，无需手工编写规则。

Tesla Vision 的工作原理：

感知（Perception）：通过 8 个摄像头输入视频流。采用 Transformer 处理时序数据，形成 BEV（俯视图）Occupancy Network 预测周围动态环境（车辆、行人、红绿灯等）。
规划（Planning）：FSD V12 直接通过 Transformer 计算驾驶路径，无需手工编码。AI 学习人类驾驶行为，进行转向、加速、刹车等决策。
控制（Control）：车辆根据 AI 计算的轨迹执行驾驶动作。特斯拉自研 AI 芯片Dojo 提供超大规模计算能力。

2.1.2 多模态大模型

在自动驾驶领域，多模态大模型（Multimodal Large Models， MML）能够融合多个传感器数据（如摄像头、激光雷达、毫米波雷达、IMU 等）来提升感知、决策和控制能力。以下是当前主流的多模态大模型：

BEVFusion

BEVFusion 融合激光雷达 + 摄像头数据，提升 3D 目标检测能力。严格来说，BEVFusion 本身并不算一个典型的大模型（LLM 级别的超大参数模型），但它可以被视为自动驾驶中的大模型趋势之一，特别是在感知层的多模态融合方向。目前主流的 BEVFusion 主要用于 3D 目标检测，并非大语言模型（LLM）那样的百亿、千亿级参数模型。例如，Waymo、Tesla 的 BEV 模型参数量远低于 GPT-4 级别的 AI 大模型。而且任务范围局限于感知，主要用于将 2D 视觉（RGB 图像）和 3D 激光雷达（LiDAR 点云）融合，输出鸟瞰图（BEV）用于目标检测、占用网络等。不直接涉及自动驾驶的决策和控制，不像 Tesla FSD V12 那样实现端到端驾驶。

虽然 BEVFusion 不是超大参数模型，但它具备大模型的一些核心特征：

多模态（Multimodal）融合：融合 RGB视觉 + LiDAR + Radar，类似 GPT-4V（图像+文本）这种多模态 AI 方向。
Transformer 结构：新一代 BEVFusion 开始采用 BEVFormer（Transformer 结构），可扩展成更大规模的计算模型。
大规模数据驱动：需要超大规模的数据集（如 Waymo Open Dataset、Tesla 数据库）进行训练，符合大模型训练模式。

Segment Anything Model （SAM）（Meta）+ DINO（自监督学习）

SAM 是由 Meta AI 发布的一种通用图像分割模型，可以对任何图像中的任何物体进行分割，而无需特定的数据集进行微调。DINO（基于 Vision Transformer 的自监督学习方法）由 Facebook AI（现 Meta AI）提出，能够在无监督情况下学习图像表示，广泛用于物体检测、跟踪和语义分割。SAM 和 DINO 结合后，可以极大提升自动驾驶中的感知精度、泛化能力和数据效率。其结合方式可以总结为：

DINO 作为自监督学习特征提取器，提供高质量的视觉表示。 SAM 作为通用分割工具，利用 DINO 提供的特征进行高精度分割。结合 BEVFusion、Occupancy Network，增强 3D 语义感知。其在自动驾驶中的应用可以是：

无监督 3D 语义分割：DINO 预训练提取高质量视觉特征，SAM 进行目标分割，提高语义理解能力。
BEV 视角感知（鸟瞰图增强）：DINO 适应跨尺度检测，SAM 用于 BEV 视角的动态目标分割。
动态物体跟踪：结合 SAM 的强大分割能力，可更精准跟踪行人、骑行者等。

2.2 规划与决策（Decision-making & Planning）

这一层面涉及强化学习、端到端 Transformer 以及大语言模型（LLM）用于自动驾驶策略决策

2.2.1 强化学习与决策模型

自动驾驶的决策层需要处理复杂的动态环境，包括车辆行驶策略、避障、变道、红绿灯响应等。强化学习（RL， Reinforcement Learning）和决策大模型（LLM， Large Decision Models）已成为关键技术，能够学习人类驾驶员的策略并在不同交通场景下进行智能决策。其基本框架为马尔可夫决策过程（MDP），主要的强化学习方法有（下图）：

其应用实例有：

Waymo & Tesla：采用 DDPG/PPO 进行端到端驾驶策略优化。 Uber ATG：使用 DQN 进行交通信号识别和决策。

2.2.2 端到端 Transformer

端到端（End-to-End， E2E）Transformer 在自动驾驶中融合感知、预测、规划，实现端到端学习，摆脱传统模块化架构的局限。Tesla FSD V12 采用 Vision Transformer（ViT）+ GPT 进行端到端自动驾驶，而 GriT（Grid Transformer）则专注于端到端路径规划，提供更高效的轨迹优化。

Vision Transformer (ViT) + GPT

Tesla FSD V12 采用 Vision Transformer （ViT） + GPT 结构，实现端到端驾驶控制，直接从摄像头输入生成方向盘转角、油门、刹车等控制信号。详细见前文。

GriT( Grid Transformer)

GriT（Grid Transformer）是一种基于 Transformer 的路径规划模型，能够在复杂环境下进行高效轨迹规划。其核心思想为：

采用栅格（Grid-based）方法进行端到端轨迹预测。
适用于动态环境，如城市道路、高速公路、交叉路口等。
结合 Transformer 结构进行全局路径优化，避免局部最优问题。

GriT 主要结构为：

1、输入（多模态信息）

摄像头（前视 & 侧视）、LiDAR 点云（可选）、HD 地图信息。
目标检测（行人、车辆、红绿灯）。
车辆当前状态（速度、加速度、方向等）。

2、Transformer 编码（Grid-based Representation）

采用栅格化（Grid-based Representation），将环境信息编码为网格结构。
使用Self-Attention计算，学习全局路径规划策略。

3、轨迹预测 & 规划

通过 Transformer 计算最优驾驶轨迹。
适应不同交通状况（红绿灯、变道、避障等）。

GriT 在自动驾驶中的应用

1、复杂路口决策

GriT 能够预测多个可能路径，并选择最优轨迹，避免碰撞。

2、动态避障

在高速公路、城市驾驶场景下，实时避让前方障碍物或慢速车辆。

3、路径全局优化

传统路径规划方法（如 A*、Dijkstra）易陷入局部最优，而 GriT 通过 Transformer 提高全局规划能力。

2.2.3 发展趋势

1、ViT + GPT 端到端感知 & 规划进一步优化

结合更多传感器数据（如雷达）提升安全性。
提高自监督学习能力，减少数据标注需求。

2、GriT 结合 BEV，提升轨迹规划能力

未来 GriT 可能与 BEV 结合，提高 3D 规划能力。
提高对动态环境的适应性，优化驾驶策略。

3、多智能体 Transformer 强化学习

未来可训练多车辆协同驾驶，提高车队自动驾驶能力。
结合 RL（强化学习）优化自动驾驶策略。

2.3 控制层（Control）

控制层是自动驾驶的核心模块之一，负责将感知和规划结果转换为具体的车辆控制指令（方向盘、油门、刹车）。近年来，大模型（如 Transformer、RL-based Policy Network）正在革新自动驾驶控制层，使其更智能、更平滑、更适应复杂环境。

DeepMind MuZero：无模型强化学习框架，可用于动态驾驶控制优化。
Nvidia Drive Orin / Thor：专用 AI 芯片结合 Transformer 网络，用于高精度自动驾驶控制。

2.4 端到端自动驾驶大模型

部分大模型实现了从感知到控制的端到端学习：

OpenPilot（Comma.ai）：开源自动驾驶系统，基于 Transformer 训练的行为克隆模型。
DriveGPT（类似 AutoGPT 的自动驾驶 LLM）：将 LLM 应用于驾驶策略。

目前，特斯拉 FSD V12 是最先进的端到端 Transformer 自动驾驶大模型。

#通用xx智能机器人更进一步~

三维装配任务，如家具组装和零部件装配，在日常生活中起着至关重要的作用，也是未来家用机器人必备的技能。现有的基准测试和数据集主要集中在组装几何碎片或工厂零件上，难以应对日常物体交互和装配的复杂性。为了填补这一空白，我们提出了2BY2，这是一个大规模的日常成对物体装配注释数据集，涵盖18个细粒度的任务，反映了现实生活场景，如插头插入插座、花瓶插花、面包放入烤面包机等。2BY2数据集包含1034个实例和517对带有姿态和对称注释的物体，这要求相关方法在对齐几何形状的同时，还要考虑物体之间的功能和空间关系。利用2BY2数据集，我们提出了一种基于等变特征的两步SE(3)姿态估计方法来处理装配约束。与以往的形状装配方法相比，方法在2BY2数据集的所有18个任务中均取得了最先进的性能。此外，机器人实验进一步验证了我们的方法在复杂三维装配任务中的可靠性和泛化能力。

背景介绍

装配任务无处不在，比如组装家具、修理家用电器或组装电子产品。要成功完成这些任务，需要对成对物体之间的空间关系进行精确推理。机器人要想在这些活动中提供帮助，就需要准确估计每个物体的6D姿态，即物体在空间中的方向和位置。这种能力对于家用机器人协助人类完成各种任务至关重要，因为它能让机器人与周围环境进行有意义的互动。

日常物体的成对装配不仅需要考虑物体之间的几何约束和空间关系以实现精确对齐，还需要具备一定的泛化能力。现有的解决装配问题的方法和基准测试，通常侧重于匹配局部几何形状，在需要语义和空间对齐的日常装配场景中，往往表现不佳。这是因为它们主要在由大规模几何碎片组成的现有装配数据集上进行训练和测试，如Breaking Bad和Neural Shape Mating。与专注于拼接物体碎片的现有装配任务相比，日常成对装配任务更具挑战性，在人类生活中也具有更大的实际意义。

为了弥合这一差距，这里引入了2BY2数据集，首个大规模的日常成对装配数据集，包含18个细粒度的任务。与以往的数据集和基准测试相比，2BY2数据集包含1034个实例和517对带有姿态和对称标注的物体，涵盖了各种反映日常场景的成对装配任务，这些任务要求相关方法在对齐几何形状的同时，还要考虑物体之间的功能和空间关系。

基于这个数据集，我们提出了一种用于装配任务的两步成对网络架构。模仿人类的装配过程，例如我们会先把花瓶放在桌子上，然后再插花。我们的方法通过逐步预测每个物体的姿态，将它们装配到预定义的规范空间中，规范空间是指符合人类世界原则的标准坐标系。该网络利用自定义的两尺度向量神经元DGCNN编码器和球形卷积，从点云输入中提取SE(3)等变和SO(3)不变特征。此外，还使用了特征融合模块以及两步训练和评估策略来提高姿态预测的准确性。

在2BY2数据集的18个任务上对我们的方法进行评估，以证明其在多任务物体成对装配预测方面的有效性。与现有基线方法相比，我们的方法在平移均方根误差（RMSE）上平均提高了0.046，在旋转均方根误差上平均提高了8.97。此外，我们在三个多类别任务（即盖子覆盖、插入和高精度放置）以及“所有任务”上验证了方法的有效性。此外，真实世界的机器人实验验证了方法的实际适用性。

主要贡献如下：

引入了2BY2，这是首个大规模的日常成对物体装配数据集。通过为18个细粒度任务中的517对物体提供全面的姿态和对称注释，2BY2突破了现实世界三维装配挑战的界限，为成对装配任务建立了新的基准。
两步成对SE(3)姿态估计方法利用等变几何特征，与现有形状装配方法相比表现更优，显著降低了平移和旋转误差，提高了6D姿态估计的准确性。
方法在基准测试中取得了最先进的性能，真实世界的机器人实验也证明了其能力，为机器人通过成对物体装配进行操作提供了一种通用的解决方案。

相关工作介绍1）物体装配基准测试和数据集

物体重新装配在计算机视觉和机器人领域催生了各种数据集。在计算机视觉领域，像AutoMate和JoinABLe这样的数据集专注于利用几何线索重新组装碎片，而早期的数据集在规模上存在限制。最近的研究成果，如Neural Shape Mating和Breaking Bad，通过参数化分割生成大规模的破碎物体数据。在机器人领域，Factory、RLBench和RoboSuite等基准测试缺乏多样化的形状和不同初始姿态下的装配任务。相比之下，我们的数据集涵盖了3个类别和18个装配任务中的500多对不同物体，为成对物体装配提供了全面的基准测试，有助于开发适用于现实应用的通用方法。

2）三维形状装配

三维形状装配，也称为零件装配，涉及从碎片中重建物体，如破碎的雕塑或拆卸的家具。现有方法使用图形模型和神经网络来捕捉几何和语义关系。一些方法专注于姿态估计和零件装配，而不依赖预定义的语义信息。少样本学习已被应用于装配任务，拼图技术则利用形状完成策略。最近的研究利用扩散模型来优化装配姿态或点云。相比之下，我们的方法引入了一种两步成对网络，用于逐步装配，专门针对成对物体对齐。

3）机器人操作中的6D姿态估计

6D姿态估计在机器人学和计算机视觉中对于在非结构化环境中进行物体交互至关重要。早期基于手工特征的方法在杂乱场景中表现不佳，而基于卷积神经网络（CNN）的方法虽然性能有所提升，但泛化能力不足。域随机化通过改变合成数据集来增强模型的鲁棒性。在装配任务中，6D姿态估计有助于为预定义物体进行操作规划。与其他方法类似，我们的方法利用等变特征进行高效的6D姿态学习，提高了泛化能力。

2BY2数据集

1）2BY2数据集概述这里提出了首个用于日常场景的大规模三维成对物体装配数据集，并对每对物体进行了详细注释。数据集中的网格模型来自3D Warehouse、SAPIEN PartNet-Mobility、Google SketchUp 3D Challenge和Objaverse。这些网格模型经过手动配对、清理、标注和统一缩放。2BY2数据集包含517对独特的物体，涵盖三个主要任务：盖子覆盖、插入和高精度放置，并进一步细分为多个子类别。

2）数据标注

为确保数据集的高质量和可靠性，对收集到的网格模型进行了系统的清理和标注。首先手动对网格进行分割、整合和配对，并将它们分类为物体B和物体A。物体B是基础或接收组件，如螺母、花瓶、邮箱；物体A是适配组件，如螺栓、花朵、邮件。这种分类符合人类直观的装配逻辑，也支持我们网络的预测策略，比如先定位螺母再安装螺栓。使用自动化脚本对网格进行统一缩放，并将每对物体对齐到世界坐标系中的规范姿态，即将物体稳定放置在XY平面上，其最低点对齐到Z=0。例如，瓶子和花瓶就像放在桌子上一样进行对齐，邮箱则像放在地面上一样。

在生成点云时，使用蓝噪声采样方法从每个网格表面均匀提取维度为(1024, 3)的点云。还对每个物体类别标注了其固有的对称属性，特别考虑了沿Z轴的旋转对称，如瓶子、螺丝，以及沿X轴的镜像对称，如面包、信件。

3.3. 数据划分和任务多样性分析

提出的数据集在各个类别中提供了多样化的任务覆盖，每个类别又进一步细分为特定的子类别。每个类别中的物体在形状、大小和类型上各不相同。为增强泛化能力，测试集包含了训练集中未见过的几何形状的物体。我们还计算了训练集和测试集点云之间的 Chamfer 距离来量化几何差异。这种多样性确保了模型在现实场景中的泛化能力和适用性，有助于进行鲁棒的三维匹配和装配任务。

问题公式化

该任务以两个点云作为输入，分别为和，每个点云的维度为(1024, 3)。这些点云分别来自预定义规范姿态的物体和，并经过SO(3)旋转随机增强和平移至质心。期望的输出是两个单独的SE(3)姿态，用于将和装配到规范姿态。

网络方法介绍

1）两步成对网络架构

为了有效地学习成对物体装配，我们提出了一种两步成对网络架构，包含两个分支：分支B（）和分支A（）。分支B使用两尺度向量神经元DGCNN编码器预测（如插座）的姿态，提取SE(3)等变特征，记为，然后通过基于多层感知器（MLP）的姿态预测头预测平移和旋转。变换后的和插入物体（如插头）随后被输入到分支A，分支A提取SE(3)等变特征和SO(3)不变特征。这些特征通过元素相乘进行融合，使能够利用两个物体的信息预测的姿态。这种架构通过利用共享特征表示确保了几何对齐和匹配，同时减少了特征干扰。

两步成对网络受人类处理成对装配任务方式的启发。例如，在插花时，人们通常会先将花瓶正确定位，然后再插入花朵。同样，将信封放入邮箱时，需要先确定邮箱插槽的姿态。通过模仿这种顺序策略，我们的模型模拟了人类的决策过程，使装配任务更高效、准确。

2）两尺度SE(3)等变和SO(3)不变特征提取

采用两尺度SE(3)向量神经元DGCNN，这是原始向量神经元DGCNN的增强版本，作为编码器来提取SE(3)等变和SO(3)不变特征。这种架构利用等变性提高模型的样本效率，同时结合两尺度信息融合机制在两个不同尺度上捕捉几何特征。

SE(3)等变结合了SO(3)旋转和T(3)平移等变：旋转等变确保网络输出随输入旋转，平移等变则相应地移动输出。SO(3)不变性意味着网络输出在任何三维旋转下保持不变。通过利用SE(3)等变，模型在样本效率和泛化能力上得到提升，这在物体可能以任意姿态出现的装配任务中尤为有利。

向量神经元网络将传统神经元从标量扩展到三维向量，设计了基于向量的卷积层和诸如池化、ReLU等非线性函数，以支持SO(3)等变和SO(3)不变特征提取。向量神经元网络在向量空间中运行，能够捕捉更丰富的几何关系，为下游任务提供更稳健的特征表示。

这里提出的两尺度向量神经元DGCNN用于提取SE(3)等变和SO(3)不变特征、和。编码器包含两个具有不同K值的分支，每个分支由多个向量神经元卷积层和池化层组成。两个分支提取的特征连接后，再通过一个额外的向量神经元卷积层进一步处理。点云和分别独立处理，形成通过两个分支传播的图。

我们编码器的SO(3)旋转等变由向量神经元层的固有等变属性保证。为实现T(3)平移等变，对于输入点云，，计算其质心，并将输入点云转换为。这样，我们的预测就是T(3)平移等变的。

两尺度向量神经元DGCNN采用双K近邻（KNN）值在两个不同尺度上提取特征，增强了捕捉局部和全局信息的能力。这种金字塔结构使网络能够同时把握物体的整体形状和细粒度细节，提升了特征提取效果。

3）跨物体融合模块

在中使用逐点相乘作为跨物体融合模块。通过将和相乘来融合和的特征，使中的每个点都具有和的几何特征。这种方法在保留旋转等变性的同时，将的几何特征整合到每个点中。

4）姿态预测

在两个分支中，分别使用两个多层感知器作为姿态预测头，分别预测平移和旋转。与在单个预测头中同时预测平移和旋转相比，这种方法有助于缓解两个分量收敛速度不同的问题。

5）训练和评估策略

对网络采用单独的训练和评估策略。为了最小化姿态预测误差对的影响，独立训练和。在训练时，使用规范姿态下的（即的真实点云）来训练模型。在测试时，首先预测的姿态，然后使用变换后的和初始的来预测的姿态。这种分阶段的两步训练和评估策略减少了物体姿态联合训练导致的误差，确保了更准确的预测。

6）损失函数

为了训练网络稳健地预测姿态，使用以下公式作为损失函数：

对于预测的姿态平移、旋转和真实姿态平移、旋转，使用损失计算：

对于旋转，使用测地距离，它测量旋转流形上两个旋转之间的最短路径，提供平滑且有界的角度误差，确保稳定的梯度，准确实现精确的旋转对齐：

实验分析

这里对两步成对网络架构进行全面评估和分析，主要回答以下问题：

与现有的基于匹配、图网络和扩散的装配方法等基线方法相比，网络在2BY2任务上表现如何？
网络在2BY2数据集中的多个任务上的泛化能力如何？它能有效地同时处理各种不同的任务吗？
网络能泛化到现实世界的机器人任务中吗？

1）2BY2数据集主要实验

实验设置

任务：将2BY2数据集中的18个装配任务分别划分为训练集和测试集，对比提出的方法与各种基线方法的性能。为进一步评估其跨任务泛化能力，在诸如盖子覆盖、插入和高精度放置等任务，以及“全部任务”（指处理整个数据集中的所有任务）上进行了额外实验。

评估指标：遵循Breaking Bad和Neural Shape Mating等数据集的指标，使用均方根误差（RMSE）来评估预测的SE(3)姿态的旋转和平移。旋转使用考虑对称性的欧拉角表示。

训练参数：将bs大小设置为4，Adam优化器的初始学习率设置为1e-4。训练模型1000个iters，以使其充分收敛

基线方法

将方法与SE-3 assembly、Puzzlefusion++、Jigsaw和Neural Shape Mating进行比较。

SE-3 Assembly提出一种网络架构，利用SE(3)等变性来考虑多部件相关性的表示，并联合预测每个部件的姿态。
Puzzlefusion++提出一种自动聚合的3D断裂装配框架。它使用扩散模型进行6自由度对齐，使用transformer模型进行验证，迭代地对齐和合并碎片。
Jigsaw利用全局和局部几何的分层特征来匹配和对齐断裂表面，并恢复每个部件的全局姿态以还原底层物体。
Neural Shape Mating利用PointNet进行特征编码，使用transformer进行特征融合，以学习装配部件之间的相关性，从而能够联合预测它们的姿态。

2BY2基准测试结果与分析

表3展示了方法与所有基线方法相比的定量性能。结果表明，在18个细粒度的装配任务上均优于基线方法，平移RMSE平均提高了0.046，旋转RMSE平均提高了8.97。

此外，在定义的三个跨类别任务（盖子覆盖、插入和高精度放置）上评估了我们的方法，并取得了最先进的性能。而且，在最全面的“全部任务”中，在平移上比基线方法提高了0.123，在旋转上提高了10.90，展示了在不同任务和物体形状上强大的泛化能力。同时，与基线方法的比较证实了我们任务的严格性和挑战性。在插头和钥匙等具有挑战性的任务上的结果，突出了框架在复杂场景中的有效性。

我们分析认为，设计的网络性能优越，是因为采用了逐步分别预测两个物体姿态的方法。这避免了姿态误差相互干扰，而这种干扰在其他基线方法同时预测两个姿态时经常发生。此外，编码器的设计使网络对旋转和平移的细微变化更加敏感，从而带来更好的性能。

2）真实世界机器人实验

真实世界机器人实验设置：如图5所示，使用配备Robotiq 2F - 85夹爪的UR5机械臂进行真实世界机器人实验。选择了杯子、花朵、面包和插头这四个任务，以展示模型在未见过的真实世界物体上具有很强的泛化能力。

将物体以随机初始姿态放置在场景中，并扫描它们以获取点云。使用在2BY2数据集的选定数据上预训练的模型，我们预测每个物体的姿态。然后应用手动设计的抓取姿态来抓取每个物体，并根据预测的姿态，机械臂规划轨迹以完成装配。以SE(3) assembly作为基线方法，并在10种不同的初始姿态下测试我们的方法。如表4所示，我们的方法明显优于基线方法。

消融研究

最后总结下

2BY2在弥合基于几何的装配任务与日常物体装配之间的差距方面迈出了重要一步。通过为18个细粒度任务中的517对物体提供姿态和对称注释，2BY2为3D装配挑战设立了新的基准。两步成对SE(3)姿态估计框架利用等变特征，与现有方法相比，在减少平移和旋转误差方面表现更优。机器人实验进一步验证了该方法在实际3D装配场景中的泛化能力。总之，2BY2提供了一个全面的基准和一个有效的框架，旨在启发和支持在机器人操作中更具泛化性的解决方案。

参考

[1] Two by Two : Learning Multi-Task Pairwise Objects Assembly for Generalizable Robot Manipulation

#SmartPretrain

预测驾驶场景中智能体的未来运动对于自动驾驶在动态的驾驶环境中安全运行至关重要。然而大规模驾驶数据集的稀缺阻碍了鲁棒和可泛化的运动预测模型的发展，限制了它们捕捉复杂相互作用和道路几何形状的能力。受自然语言处理（NLP）和计算机视觉（CV）最新进展的启发，自监督学习（SSL）在运动预测领域引起了广泛关注，用于学习丰富且可转移的场景表示。尽管如此，现有的运动预测预训练方法主要集中在特定的模型架构和单个数据集上，限制了它们的可扩展性和通用性。为了应对这些挑战，商汤和MMLab等团队提出了SmartPretrain，这是一个通用的、可扩展的运动预测SSL框架，既与模型无关，也与数据集无关。SmartPretrain整合了对比和重建SSL，利用生成和判别范式的优势，在不施加架构约束的情况下有效地表示时空演化和交互。此外，SmartPretrain采用了一种与数据集无关的场景采样策略，该策略集成了多个数据集，增强了数据量、多样性和鲁棒性。在多个数据集上进行的广泛实验表明，SmartPretrain在数据集、数据分割和主要指标上始终如一地提高了最先进的预测模型的性能。SmartPretrain将预测MAE的错误率显著降低了10.6%。这些结果突显了SmartPretrain作为运动预测的统一、可扩展解决方案的有效性，打破了小数据体制的限制。文章已发表在ICLR 2025~

论文链接：https://arxiv.org/abs/2410.08669
代码链接：https://github.com/youngzhou1999/SmartPretrain

#MPDrive

空间感知提升100%！视觉多模态大模型突破智驾空间理解瓶颈

自动驾驶视觉问答（AD-VQA）旨在基于给定的驾驶场景图像回答与感知、预测和规划相关的问题，这高度依赖于模型的空间理解能力。先前的工作通常通过坐标的文本表示来表达空间信息，导致视觉坐标表示和文本描述之间的语义差距。这种疏忽阻碍了空间信息的准确传递，并增加了表达负担。为了解决这一问题，我们提出了一种新的基于标记的提示学习框架（MPDrive），它通过简明的视觉标记来表示空间坐标，确保语言表达的一致性，并提高AD-VQA中视觉感知和空间表达的准确性。具体来说，我们通过使用检测专家在目标区域上叠加数字标签来创建标记图像，将复杂的文本坐标生成转换为基于文本的视觉标记预测。此外，我们将原始图像和标记图像融合为场景级特征，并结合检测先验来获取实例级特征。通过结合这些特征，我们构建了双粒度的视觉提示以激发LLM的空间感知能力。在DriveLM和CODA-LM数据集上的广泛实验表明，MPDrive在需要复杂空间理解的情况下实现了最先进的性能。

论文链接：https://arxiv.org/abs/2504.00379

自动驾驶技术迅速发展，显示出提升道路安全、交通效率和减少人为错误的潜力。一个强大的自动驾驶系统需要能够感知复杂环境并做出明智决策的代理。最近，多模态大语言模型（MLLMs）已成为自动驾驶的一种有前景的方法，在视觉问答（AD-VQA）任务中展示了强大的泛化能力。当前的MLLMs在自动驾驶场景中的空间理解方面面临挑战，限制了它们准确定位、识别和描述驾驶场景中目标及其状态的能力。尽管一些AD-VQA方法尝试通过指令调优领域特定数据集来增强MLLM性能，但它们并未充分解决空间推理优化的核心挑战。在这些方法中，有些通过整合检测先验来增强空间理解。然而，这些方法通常以文本格式表达空间坐标，导致基于坐标和语言描述之间的不一致，从而削弱了自动驾驶中的感知准确性和精确的空间表达。

如图1所示，当前研究直接以文本格式表示目标空间坐标，导致坐标和文本描述之间的语义差距。这种错位对后续的预测和规划任务产生了不利影响。相比之下，MPDrive将复杂的生成空间坐标的过程转换为基于文本的视觉标记（带有数字标签的区域）预测，确保语言一致性。

本文重点关注提高自动驾驶中坐标表示和空间理解的一致性。我们提出了基于标记的提示学习框架（MPDrive），这是一种新颖的多模态框架，使用文本索引来注释每个交通元素，并直接预测相应索引的坐标。

如图1所示，MPDrive利用视觉标记，即在图像检测区域上叠加的基于文本的索引，突出关键目标的空间位置。这种转换将复杂的生成空间坐标的过程简化为基于文本的视觉标记预测，从而弥合了AD-VQA中坐标表示和语言描述之间的差距。此外，通过结合多层次的空间特征，MPDrive激发LLM的空间感知能力，提高视觉标记预测的准确性，提升预测和规划任务的性能。

为此，我们提出了两个组件：标记控制网络（MCNet）和感知增强空间提示学习（PSPL）。具体而言，MCNet处理原始图像和视觉标记图像，在保留原始图像特征的同时准确表达空间信息。PSPL结合场景级和实例级视觉提示：i) MCNet生成场景级提示以捕捉全面的空间关系，而ii) 实例级提示通过遮罩平均池化整合细粒度的目标特征。这种集成显著增强了MPDrive的空间理解能力。

总之，本文的主要贡献如下：

提出了MPDrive，一种基于标记的提示学习框架，利用视觉标记弥合AD-VQA中基于坐标和语言描述之间的差距，显著提高了自动驾驶中的空间理解能力。
MPDrive由两个组件组成：标记控制网络（MCNet）和感知增强空间提示学习（PSPL）。MCNet融合视觉标记图像以获取场景特征，而PSPL整合场景级和实例级视觉提示，增强多层次的空间理解能力。
广泛的实验表明，MPDrive在AD-VQA任务中取得了最先进的结果，在DriveLM数据集的多图像任务和CODA-LM数据集的单图像任务中表现优异，特别是在复杂的场景中。

相关工作回顾AD-VQA

AD-VQA已成为促进人车交互和提高复杂驾驶场景中决策能力的重要组成部分。最近的自动驾驶研究通过多个视角取得了进展：用于场景理解的多模态融合、用于决策的多步推理、信号控制优化、运动规划和角落案例处理。这些方法通过有效整合多模态数据和推理机制，共同增强了系统的能力。

近期的研究越来越关注在自动驾驶中增强MLLMs的空间理解能力。ELM利用专家生成的文本描述来改进目标定位，而LLM-Driver通过将向量化数值模式与预训练的LLMs集成，提升了上下文理解能力。同样，Reason2Drive采用先验分词器和指令视觉解码器来加强视觉定位能力。尽管这些策略旨在通过检测先验来增强空间理解，但通常涉及复杂的训练方案，例如添加复杂的网络架构或检测优化函数。此外，这些策略通常以文本格式表示空间坐标，这可能增加模型的复杂性。因此，这些方法忽视了基于坐标和语言描述之间的差异，损害了自动驾驶系统中的感知准确性和空间信息的精确表达。

MLLMs

MLLMs展示了显著的可解释性和泛化能力。近期MLLMs的进步主要集中在视觉-语言对齐和训练策略上。对于对齐，BLIP-2引入了Q-Former以实现高效的模态桥接，MiniGPT-4通过投影层将冻结的视觉编码器与LLMs对齐，而InternVL提出了视觉模型与LLMs之间的渐进对齐。对于训练策略，LLAVA利用机器生成的指令数据，而MiniCPM通过高级学习率调度优化性能。这些进步使MLLMs成功应用于视频理解、图像理解和具身AI。

在自动驾驶中，MLLMs以多种方式进行了探索。Atlas和DriveGPT4分别通过3D标记化和多帧视频处理增强驾驶能力。为了资源效率，MiniDrive和EM-VLM4AD提供了轻量级的MLLMs用于自动驾驶。同时，TOKEN集成了标记化的目标级知识，而DriveAdapter通过特征对齐和动作引导学习提高了模型性能。这些努力尝试将MLLMs应用于自动驾驶；然而，它们尚未充分探索驾驶场景中的空间理解。

视觉提示

视觉提示已被广泛用于各种下游任务的迁移和适应，可分为可学习和图像修改方法。可学习的视觉提示方法将可训练的标记作为额外的视觉输入，LM-BFF和VPT等作品通过基于提示的微调展示了增强的学习效率。图像修改的视觉提示方法侧重于通过专家生成的元素修改图像，FGVP、API和SoM通过分割掩码和注意力热图等技术显著提高了MLLMs的视觉理解能力。

虽然我们的方法受到SoM的启发，它在图像上叠加掩码和标记，但我们引入了几项关键改进，以更好地应对自动驾驶任务中的特定挑战。首先，传统标记可能会遮挡原始图像中的关键信息，例如目标的颜色和特征。为了解决这个问题，我们使用Marker ControlNet逐步引入标记衍生的信息，从而保留原始图像的关键视觉信息，同时利用视觉标记的好处。此外，我们还引入了一种视觉提示过程：Perception-Enhanced Spatial Prompt Learning，包括场景级和实例级视觉提示，显著增强了MPDrive的空间感知能力。

方法详解

预备知识

给定一组视图图像和文本问题，AD-VQA旨在生成响应序列，其中表示长度为的序列中的第个标记。MLLMs在AD-VQA中的工作流程如下：1）一个视觉编码器，用于从每个视图中提取视觉特征；2）一个连接的多层感知机（MLP），用于将多视图特征转换为图像标记；3）一个文本标记器，用于将问题转换为文本标记；4）一个大型语言模型（LLM），用于融合图像标记和文本标记以生成响应序列。

基于这些MLLMs，我们提出了MPDrive来增强空间理解能力。为了清晰起见，我们使用单视图场景说明方法，同时注意到所有操作自然扩展到多视图情况。

视觉标记

为了弥合空间坐标表示和语言描述之间的差距，我们引入了视觉标记。该方法通过将空间坐标生成任务简化为直接的基于文本的视觉标记预测来实现这一点。如图2所示，给定输入图像，我们使用检测专家StreamPETR识别交通目标（例如汽车、卡车和公共汽车）。检测专家生成个目标掩码，表示为二进制掩码，其中表示第个检测掩码。对于，我们计算其平均质心坐标，这代表了该目标的中心位置。标注的标记图像通过对原始图像进行两步修改生成：首先，在每个目标的质心处标注标记索引，其次，叠加相应的半透明掩码区域以描述目标边界。此外，当在问题中引用距离现有坐标超过像素的新空间坐标时，我们为其分配一个标记索引，并在上标注该索引，以保持视觉和文本模态之间的一致空间推理。

对于响应生成，我们利用视觉标记提高视觉提示的有效性并确保语言输出的一致性。具体而言，LLM首先从给定的图像和问题中生成指示符，然后将此索引映射到其对应的质心坐标以进行精确定位。这一过程允许MPDrive通过其标记识别关键目标，而复杂的空间感知由检测专家处理。通过避免直接输出坐标，这种方法减轻了LLM的语言复杂性，确保生成一致的文本输出。

MPDrive架构

如图2所示，MPDrive由两个关键组件组成：MCNet和PSPL。MCNet通过利用原始图像和额外的视觉标记图像来增强空间表示，从而实现双级融合的场景特征。基于这些提取的特征和检测专家，PSPL生成场景级和实例级的视觉提示，从而增强对驾驶场景信息和目标信息的理解。这些组件的集成显著增强了MPDrive的空间感知能力。

标记控制网络（Marker ControlNet）

为了有效保留原始图像的关键特征并充分利用视觉标记中的丰富信息，我们提出了标记控制网络（MCNet）。该模块将原始图像和视觉标记图像作为输入，并生成场景级特征。

我们冻结原始视觉编码器的参数，并创建一个带参数的可训练副本，记作。在训练过程中，原始视觉编码器保持冻结状态，我们专注于使用低秩适应（LoRA）对多头注意力模块和前馈网络进行训练，秩为16。我们通过零线性连接原始视觉编码器和控制块，其中权重和偏置均初始化为零，参数为。这些层与控制块一起训练，允许有效的参数调整和性能改进。原始图像特征使用原始视觉编码器提取，而视觉标记图像特征则使用新的控制块结合提取。

这些特征通过逐元素相加进行场景级特征融合：

其中表示场景级特征。

由于零线性层的权重和偏置参数初始化为零，方程1中的项初始值为零，从而保留了原始图像特征的完整性。在随后的优化阶段，来自视觉标记图像的有益特征将通过反向传播逐渐引入。

MCNet有效地整合了视觉标记，使MPDrive能够在视觉标记的指导下学习额外的语义信息，同时保留原始图像的关键特征。更重要的是，这种方法确保MPDrive能够捕捉视觉标记信息，然后输出相应的基于文本的标记，从而在生成空间信息时保持语言输出的一致性。

感知增强空间提示学习

为了应对MLLMs在空间表达能力方面的局限性，我们引入了感知增强空间提示学习（PSPL），旨在通过使用场景级和实例级视觉提示来增强MPDrive的空间感知能力。

图像中的视觉标记准确地表示整个场景的空间信息。因此，MCNet的输出特征包含丰富的场景级空间信息。随后，通过连接的MLP处理以生成场景级视觉提示。

这些场景级视觉提示显著提高了在复杂场景中对空间信息的感知和准确理解。

为了进一步增强实例级的空间信息表示，我们引入了实例级视觉提示。给定第个检测目标及其区域掩码，场景级视觉提示，其中是通道数，是宽度，是高度，我们将二进制区域掩码调整为与相同的大小，并使用掩码平均池化：

其中表示掩码平均池化操作，表示第个实例级视觉特征。

给定个目标，我们获得了一组实例级视觉特征。这些特征通过连接的MLP处理以生成实例级视觉提示。这个实例级视觉提示丰富了目标的空间表示。PSPL将场景级视觉提示和实例级视觉提示串联在一起，增强了MPDrive的空间感知能力。

大语言模型

LLM接收来自文本标记器的输入文本标记以及来自PSPL模块的空间提示和。它使用其内部模型处理这些输入，其中LoRA应用于多头注意模块和前馈网络，秩为16，生成长度为的输出序列。输出标记序列然后用于计算与真实序列的交叉熵损失：

实验结果分析

实验设置

数据集

我们在DriveLM和CODA-LM数据集上进行实验。对于DriveLM数据集，我们遵循EM-VLM4AD和MiniDrive所采用的数据划分策略，将数据集划分为训练集和验证集，分别分配70%和30%的数据。训练集包含341,353个独特的问答对，而验证集包含18,817个不同的问答对。每个问答对包括六个视角图像：前视图、左前视图、右前视图、后视图、左后视图和右后视图。对于CODA-LM数据集，我们使用包含20,495个问答对的训练集对MPDrive进行训练，并使用一个包含193个问答对的小型集进行验证。每个问答对包括一张前视图图像。

评估指标

为了促进严格和公平的比较，我们采用了与EM-VLM4AD和MiniDrive研究一致的评估指标，包括BLEU-4、ROUGE L、CIDEr和METEOR。这些指标通过重叠、召回率、基于共识的评估和语义相似性来评估预测值与真实值之间的语言一致性，反映了MLLMs的感知、预测和规划能力。此外，根据CVPR 2024自动驾驶挑战赛指南，我们还纳入了额外的性能指标：匹配度和准确性。匹配度指标量化预测中心点坐标与真实值之间的欧几里得距离小于16像素的百分比，为MLLMs的空间信息表达能力提供了直观的验证。准确性评估多选题和是非题的响应正确性，为MLLMs的能力提供全面的评估。

实现细节

在训练阶段，我们采用初始率为5e−4的余弦学习计划，并使用AdamW优化器，权重衰减为0.01。对于DriveLM数据集，我们采用批量大小为128，并在八块A800 GPU上进行3,000次迭代训练，相当于大约1个epoch。对于CODA-LM数据集，我们进行了2000次迭代训练，相当于大约12个epoch。在整个训练过程中，视觉编码器权重保持冻结。我们微调连接的MLP和零MLP，同时对MCNet内的视觉编码器和LLM解码器应用低秩适应(LoRA)。在训练和推理阶段，我们将输入图像分辨率调整为448×448像素。检测到的目标数量K由每个图像的检测专家动态确定，所有摄像机视图的最大限制为100个目标。我们设置了新空间坐标的dth=50。

定量结果

我们在DriveLM数据集上与竞争方法进行了定量评估，以展示MPDrive的有效性，如表1所示。我们提出的方法表现出卓越的性能，特别是在CIDEr和METEOR指标上，分别获得了3.56和38.31的分数。此外，它在BLEU-4中的表现超过了所有单轮推理方法，接近基于图的多轮推理方法(DriveLM-Agent)的性能，表明其在语言一致性方面的优越性能。此外，MPDrive显示出强大的空间感知能力，匹配得分达到13.43，准确率达到85.18，超过了InternVL-2的表现。

如表2所示，MPDrive在CODA-LM数据集上的各种任务中表现出显著的性能。在一般感知任务中，MPDrive取得了41.80的分数，显著优于其他SOTA方法。这表明其在有效感知和解释驾驶场景方面的卓越能力。对于与空间相关的区域感知任务，MPDrive在多个子类别中表现出色。它在车辆类别中获得79.48分，在VRU（弱势道路使用者）类别中获得70.00分，突显了其对空间目标的细粒度感知能力。此外，它在锥形物（77.77）、障碍物（70.00）和其他（62.85）类别中表现良好，突显了其全面的空间理解能力。MPDrive在驾驶建议生成中取得了58.20的最高分，展示了出色的空间意识和规划能力，为有效的驾驶建议提供支持。

这些结果验证了MPDrive在精确空间表达方面的能力，并展示了MPDrive在自动驾驶场景中的增强空间感知能力。

定性示例

在图3中，我们将MPDrive与InternVL-2在未见样本上的实际响应结果进行了比较，评估了MPDrive的空间感知和任务规划能力。在图3的上部样本中，我们显示了最相关图像之一的预测坐标。InternVL-2的预测位于错误区域，而MPDrive定位了重要目标，与真实标注一致。这表明了MPDrive卓越的空间理解能力。

在图3的下部示例中，当被要求识别涉及车辆和行人的危险行为时，InternVL-2错误地得出结论认为与行人没有碰撞风险。相比之下，MPDrive准确评估了车辆与行人之间的空间关系，从而做出正确的规划决策。这表明了MPDrive分析复杂场景并做出精确决策的先进能力，突显了其在自动驾驶应用中的有效性。更多定性示例可以在补充材料中找到。

总之，MPDrive在未见样本上优于InternVL-2，表现出准确的目标定位和可靠的空间关系评估能力，这对于安全的自动驾驶至关重要。

消融研究

在本节中，我们对视觉标记、MCNet和实例级视觉提示进行了消融研究。此外，我们还在不同MLLMs上评估了MPDrive。为了确保公平比较，我们在DriveLM数据集上进行了消融实验，该数据集包括六视角图像并涵盖感知、预测和规划任务，从而便于对自动驾驶场景中的MLLM进行全面评估。此外，DriveLM数据集上的各种评估指标可以从多个角度评估MPDrive的性能。

场景级视觉提示

为了评估场景级视觉提示的有效性，我们对视觉标记和MCNet进行了消融实验。表3展示了场景级提示的消融研究。视觉标记显著提高了空间感知能力，匹配得分从7.59提高到11.89。然而，其对语言指标的影响结果参差不齐。虽然准确性略微下降到80.42，但BLEU-4和METEOR得分的提升表明MPDrive的语言表达一致性有所增强。我们将此性能归因于视觉标记和目标特征在视觉空间中潜在的特征干扰。

通过合并MCNet，大多数衡量语言一致性的指标都有所改善。尽管匹配得分从单独使用视觉标记时的11.89下降到9.70，但模型在BLEU-4（52.56）和METEOR（38.14）得分方面实现了更好的语言质量。这表明MCNet有助于平衡空间信息和语义理解之间的特征表示，尽管牺牲了一些空间感知能力。

实例级视觉提示

为了评估实例级视觉提示的有效性，我们在保持所有其他设置相同的情况下，进行了有无该组件的对比实验，如表3所示。实例级视觉提示的整合在空间和语言指标上都带来了全面的改进。具体而言，匹配得分进一步增加到13.43，超越了所有先前的配置，而准确性达到了最高的85.18。

此外，语言生成质量持续改善，BLEU-4达到52.71，ROUGE L达到76.98，CIDEr达到3.56，METEOR达到38.31。这些结果表明，实例级视觉提示有效地增强了空间感知和语言理解，表明其在精确文本标记索引预测中的关键作用。

不同MLLMs

为了评估MPDrive的模型无关性，我们将实验扩展到包括LLaMA-Adapter作为替代MLLM。表4表明，将我们的MPDrive框架应用于LLaMA-Adapter相较于原始LLaMA-Adapter实现带来了显著的性能提升。具体来说，MPDrive(LLaMA-Adapter)实现了显著更高的匹配得分10.05，相比于LLaMA-Adapter的1.48，表明其空间感知能力得到了大幅增强。

在语言生成指标方面，MPDrive(LLaMA-Adapter)在各个方面都优于LLaMA-Adapter：BLEU-4从45.96提高到47.97，ROUGE-L从69.78提高到73.54，CIDEr从3.07上升到3.28，METEOR从33.66提高到35.58。

此外，MPDrive的准确性略高，达到68.25，相比66.66。对比分析表明，MPDrive有效地增强了不同MLLMs的空间理解能力。

结论

我们介绍了一种新颖的基于MLLM的框架，称为MPDrive，用于AD-VQA。MPDrive将复杂的空域坐标生成转化为简洁的视觉标记预测。它结合了MCNet和PSPL以增强场景级和实例级的空间感知能力。MPDrive在使用DriveLM数据集的多视角输入自动驾驶任务以及使用CODA-LM数据集的单视角输入任务中均取得了最先进的性能。

MPDrive依赖于先验专家进行空间感知和语言表达，专家的错误可能会影响其性能。此外，尽管MPDrive增强了AD-VQA的空间感知能力，但长时间跨度的时间感知仍然是自动驾驶中的一个重要挑战。因此，基于MPDrive推进这一研究值得进一步探讨。

新型电商平台有哪些_怎么查看小程序的开发公司_郑州网站建设推广_项目推广平台有哪些

#汇聚感知、定位、规划控制的自动驾驶系统

#单目深度估计的扩散模型

#自动驾驶行车&泊车~从原理到实践

#MambaST

#自动驾驶CornerCase变小Case

#GaussianLSS

#LLVM-AD 2025

#距离人人都能生成百万运镜短视频还有多久？

#元戎启行联合高通基于骁龙智驾平台发布高阶智驾解决方案

#智驾中的大模型

#通用xx智能机器人更进一步~

#SmartPretrain

#MPDrive

#xxx

#xxx

#xxx

#xxx

#xxx

最新新闻

热搜词

新型电商平台有哪些_怎么查看小程序的开发公司_郑州网站建设推广_项目推广平台有哪些

#汇聚感知、定位、规划控制的自动驾驶系统

#单目深度估计的扩散模型

#自动驾驶行车&泊车~从原理到实践​

#MambaST

#自动驾驶CornerCase变小Case

#GaussianLSS

#LLVM-AD 2025

#距离人人都能生成百万运镜短视频还有多久？

#元戎启行联合高通基于骁龙智驾平台发布高阶智驾解决方案

#智驾中的大模型

#通用xx智能机器人更进一步~

#SmartPretrain

#MPDrive

#xxx

#xxx

#xxx

#xxx

#xxx

最新新闻

热搜词

#自动驾驶行车&泊车~从原理到实践