视觉语言模型在自动驾驶和智能交通系统中的应用全面调研

释放双眼，带上耳机，听听看~！

本文对视觉语言模型在自动驾驶和智能交通系统中的应用进行了全面调研，探讨了潜在的应用和技术进展，以及该领域中的挑战和研究空白。

本文经自动驾驶之心公众号授权转载，转载请联系出处。

写在前面&&一点思考

当前VLM, LLM十分的热门, 尤其是在自动驾驶领域, 自动驾驶的输入本身就是多模态的, 这里面最重要的就是图像和语言信息, 所以如何将图像和文本信息综合利用, 以及如何充分利用LLM是当前急需要探索的, 目前其实已有部分工作是关于VLM及LLM在自动驾驶中应用的, 比如为了利用文本信息，为了出可解释性, 但是其实VLM与LLM在自动驾驶中的应用远不止这些, 可以结合的地方有很多, 比如感知, 决策，规划, 可以分别从这些方向入手探讨结合的方向。另外不光是自动驾驶领域，应该说整个cv领域在接下来都会有不少这方面的工作, 比如目标检测，分割, 跟踪, 分类, 行人ReID, 车辆ReID等，都可以借助VLM与LLM, 重新思考新的驾构, 使得性能再上一个新的台阶.

这项工作的意义

视觉语言模型（VLM）在自动驾驶（AD）和智能交通系统（ITS）领域的应用引起了广泛关注，这是因为它们的出色性能和利用大型语言模型（LLM）的能力。通过整合语言数据，车辆和交通系统能够深入理解现实环境，提高驾驶安全性和效率。在这项工作中，我们对这个领域的语言模型的进展进行了全面的调研，包括当前的模型和数据集。此外，还探讨了潜在的应用和新兴的研究方向。最后，全面讨论了挑战和研究空白。

有哪些贡献？

智能移动在现代文明中至关重要，推动经济增长，支持城市发展，加强社会联系。近年来，深度学习和计算能力的快速发展深刻地影响了交通运输，提高了其效率和智能化。智能移动的两个新兴领域是自动驾驶（AD）和智能交通系统（ITS）。

自动驾驶力图使车辆能够感知环境并智能驾驶。当前的自动驾驶技术，尤其是与感知和预测相关的技术，极大地受益于计算机视觉的进步。例如，感知模块通常使用卷积神经网络（CNNs）或Transformer ，从相机或激光雷达等传感器中处理数据，准确识别和定位周围的实体。然而，尽管取得了这些技术上的突破，当前的计算机视觉解决方案仍然在复杂和快速变化的环境中面临困难。它们经常无法捕捉复杂细节或理解上下文，从而导致潜在的安全问题，并限制了向更先进的自动驾驶的发展。

另一方面, 智能交通系统旨在提高交通安全性和流动性, 但尽管多年来它们的效率和可靠性有所提高，但挑战仍然存在。例如，实时交通流量预测很容易受到天气、碰撞事件或道路施工等各种环境因素的影响。

LLM 和VLM 的出现为当前自动驾驶和智能交通系统固有的局限性提供了潜在解决方案。这些新颖的技术综合了语言和视觉数据，为车辆和系统深入理解周围环境的未来带来了希望。这标志着智能、高效和可解释的交通运输的新时代。除了增强AD或ITS中的传统任务，如目标检测或交通流量预测，新兴领域还包括零样本感知和事故分析，如下图所示

视觉语言模型在自动驾驶和智能交通系统中的应用全面调研

考虑到将语言模型应用于自动驾驶和智能系统的研究激增，系统和全面的调研对于研究界非常重要。然而，现有的调研要重点在LLMs、VLMs、AD、TS各自领域上比较分散，没有一个综述系统地探讨VLMs在AD和ITS中的应用。

为此，我们对自动驾驶和智能交通系统中视觉语言模型的现有算法进行了综述，突出了研究界的最新技术趋势。

整体框架如下

视觉语言模型在自动驾驶和智能交通系统中的应用全面调研

该工作的主要贡献可以总结如下：

首次提出了关于视觉语言模型在自动驾驶和智能交通系统中应用的全面调研。
系统地总结和分析了现有的工作和数据集。
探讨了VLMs在自动驾驶和智能交通系统中的潜在应用和技术进展。
对该领域中的挑战和研究空白进行了深入讨论。

领域背景介绍

这一节主要是对自动驾驶, 智能交通系统以及大语言模型，视觉语言模型的大致介绍.

自动驾驶

自动驾驶目标是开发出能够在没有人类干预的情况下能自动导航和完成控制的车辆，以减少事故并提高交通效率。根据美国汽车工程师学会定义的驾驶自动化等级可以从0级（无自动化）到5级（完全自动化）。随着自主性的增加，人类干预减少，而车辆对环境的理解要求增加。目前，大多数商用车辆处于2级或3级，提供部分自动化但仍需要驾驶员监督。现有的自动驾驶解决方案可以大致分为经典模块化范式和端到端方法。然而，这些方案都面临着诸如可解释性、泛化性、因果混淆、鲁棒性等严重挑战。研究人员尝试使用各种方法来解决这些问题，但构建一个安全、稳定和可解释的自动驾驶系统仍然是一个未解决的课题。

智能交通系统

智能交通系统（ITS）利用先进技术来通过优化更广泛的交通环境来提高交通效率和安全性。通过整合道路传感器和道路用户等各种来源的实时数据，ITS包括一系列广泛的服务和应用，从自适应交通信号控制到实时交通监测、事故探测和预测、交通流预测以及协同车辆基础设施系统。尽管ITS在感知、通信和机器学习技术方面的发展增强了其应用范围，但仍然需要解决一些重要挑战。驾驶是一项社交活动，通常需要与其他交通参与者频繁交互，但当前系统仍然缺乏人类所依赖的智能和常识。

大语言模型

大型语言模型（LLMs）通常指具有庞大参数量的语言模型，往往达到十亿或更多。LLMs最显著的特点是展示了新兴的能力，如在众多下游任务中具备少样本或零样本迁移学习的能力，强大的多步推理能力和能够遵循指令的能力，这些通常在较小模型中不存在。ChatGPT，特别是GPT-3.5，标志着LLMs发展的一个里程碑。自发布以来，GPT-3.5一直因其卓越性能而受到关注。越来越多的研究人员开始探索和利用LLMs强大的语言理解、解释、分析和推理能力来解决以前难以甚至无法解决的问题。

视觉语言模型

视觉-语言模型（VLM）将自然语言处理（NLP）和计算机视觉（CV）的功能结合起来，打破了文本和视觉之间的边界。

随着LLMs的兴起，越来越多的注意力也开始放在探索如何将视觉模块有效地整合到LLMs中以执行多模态任务上。

在AD中，主流的视觉-语言模型可以根据输入和输出的模态类型广泛分为Multimodal-to-Text (M2T) 、Multimodal-to-Vision (M2V) 和Vision-to-Text (V2T) 。如图所示，

视觉语言模型在自动驾驶和智能交通系统中的应用全面调研

M2T通常将图像文本或视频文本作为输入，并生成文本作为输出；相应地，M2V接受图像文本作为输入，并生成图像或视频作为输出，而V2T则将图像或视频作为输入，并生成文本作为输出。

如下图所示，

视觉语言模型在自动驾驶和智能交通系统中的应用全面调研

根据模态之间的信息连接方法，AD中使用的VLMs可以分为Vision-Text-Fusion (VTF)和Vision-Text-Matching (VTM) 。VTF使用各种融合方法有效地整合了视觉嵌入和语言嵌入，并共同优化了用于目标任务的特征表示。相反，VTM，包括图像文本匹配和视频文本匹配，通过迫使视觉文本对在语义上靠近，并且不配对实例相互远离，学习了一个联合表示空间，实现了跨模态的语义对齐，及跨模态的语义传播。CLIP 是VLMs中的一个重要里程碑，通过对大量的图像文本对进行对比学习，捕捉与语言相关的图像特征表示，并实现了zeor-shot样本迁移能力。

视觉语言模型VLMs在自动驾驶中的应用

VLMs在自动驾驶中有越来越多的尝试。在本节中，介绍了在AD中存在的VLM工作，包括感知与理解，导航与规划，决策与控制，端到端AD，和数据生成。总结的当前方法如表所示

视觉语言模型在自动驾驶和智能交通系统中的应用全面调研

感知和理解

在自动驾驶感知中，尤其是那些在大规模图像-文本匹配数据集上进行预训练的VLM模型，已经推动了许多新的研究。这些研究利用预训练VLMs的丰富先验知识来提升感知和理解的性能，并进一步引入了许多新的任务。

行人检测

行人检测中固有的挑战包括类似人体的物体混淆和边际案例样本不足。为此，VLPD 首次提出了一种视觉语言额外注释的方法，以增强模型区分混淆的类似人体物体的能力，主要方法是利用CLIP获取逐像素明确的语义上下文，并通过对比学习将行人特征与其他类别的特征进行距离计算，提高对更广泛案例的检测能力。UMPD也利用了CLIP中的zeros-shot语义类，并提出了一种完全无监督的多视角行人检测方法，无需手工标注。

对象引用

与传统的感知任务相比，如目标检测、跟踪和语义分割，引入语言使模型能够获得更细粒度和全面无约束的理解周围环境的能力。

对象引用(OR)是该领域的一个典型任务, 目的是根据语言的query用框或者Mask把对应的物体给显示出来.

MSSG 在自动驾驶场景中提出了一种多模态3D单一物体指代（SOR）任务。它通过在鸟瞰视图（BEV）下融合图像、LiDAR和语言特征来训练多模态单次定位模型，并从检测器直接预测目标区域，无需后处理。TransRMOT 将SOR任务扩展到多物体指代和跟踪（MOR-T），并基于KITTI数据集构建了Refer-KITTI baselin。给定一个语言query，TransRMOT可以在视频中检测和跟踪任意数量的指代对象。类似地，PromptTrack 提出了nuScenes数据集的语言提示集合，并构建了NuPrompt baseline。与ReferKITTI相比，NuPrompt继承了nuScenes的多视角属性，使其适用于多视角MOR-T任务。

开放词汇的三维物体检测和语义分割

由于VLMs的zero-shot以及跨模态的能力, 目标检测和语义分割都具备在未知样本上执行开放词汇检测和分割的能力。UP-VL框架首先提出了一种无监督的多模态自动标记流程，用于生成点级特征和对象级边界框以及跟踪信息，以进行开放词汇类别无关的3D检测器监督，并在推断时进一步用于提供3D边界框。结合通过相似性匹配分配的语义标签，UP-VL框架实现了AD场景中静止和移动交通参与者的无监督开放词汇3D检测和跟踪（OV-3DOD-T）。OpenScene 利用2D-3D投影对应来强制使3D点云嵌入和相应的融合2D图像特征保持一致。基本上，它将3D点云表示与CLIP的图像-文本表示对齐，以获取密集3D点特征的零样本理解能力.OpenScene主要在室内场景中进行评估，但也在Nuscenes上展现出令人满意的开放词汇三维语义分割（OV-3DSS）能力。CLIP2Scene探索了如何利用CLIP来辅助自主驾驶中的3D场景理解。通过在像素文本映射和像素点映射之间寻找模态之间的关联，CLIP2Scene分别构建了点文本对和像素点文本对进行对比学习训练。客观性也是为了确保3D点特征及其相应的语言实现语义一致性，从而促进OV-3DSS。实验证明，使用CLIP2Scene作为预训练远远优于其他自监督方法。

交通场景理解

一个正确而高水平的对交通场景的理解对驾驶安全至关重要。在下图中，

视觉语言模型在自动驾驶和智能交通系统中的应用全面调研

展示了GPT-4V 在一个交通事故场景和一个具有潜在风险的城市道路场景中的理解能力示例。有几个探索性工作利用VLMs通过特定的下游任务来理解交通场景。比如可以通过对场景图像进行描述来理解交通场景,也可以将视觉信息转化为语言描述，然后利用LLMs的强大推理能力来解决语义异常检测 (SAD)。NuScenes-QA 基于nuScenes数据集，在自动驾驶场景中建立了视觉问答 (VQA) 任务的baseline，为后续的研究提供了基础。Talk2BEV 采用鸟瞰 (BEV) 检测模型、密集字幕模型和文本识别模型构建了真实语言增强的BEV地图，并根据VQA任务评估模型在视觉和空间理解方面的性能。目前这方面的工作都还处于早期阶段，相信将来在这块儿应该会有越来越多的有趣的工作。

导航与规划

在导航领域，随着VLM的进步，尤其是CLIP 的提出，语言引导导航（LGN）任务开始从特定的预定义位置描述扩展到自由和任意的指令，这也推动了语言增强地图的发展。

语言导航

Talk to the Vehicle 提出了一种路标生成网络（WGN），它将语义占用和预定义的自然语言编码（NLE）映射到局部路标。规划模块然后使用局部路标来预测执行轨迹。Ground then Navigation 通过使用CLIP解决了语言导航任务。它提出了一个流水线，将视频帧，历史轨迹上下文和语言命令作为输入，并输出在每个时间戳上预测的导航mask和轨迹。ALT-Pilot 通过结合语言标志物（包括街道标志，交通信号和其他重要环境特征）来增强OpenStreetMap（OSM）道路网络，以替代传统的内存和计算昂贵的高清LiDAR地图。ALT-Pilot还利用CLIP在推断时预先计算每个标志物的特征描述符，并使用余弦相似度将它们与像素级视觉描述符进行匹配，从而促进了从语言导航指令到地图位置的对应，从而帮助多模态定位和导航。

预测和规划

一些研究还开始探索如何利用LLMs来提升运动规划和轨迹预测的性能。GPT-driver 将运动规划重新制定为语言建模问题，并将GPT-3.5模型转化为自动驾驶的运动规划器，想法主要是利用其强大的推理和泛化能力。CoverNet-T 提出了使用基于文本的场景描述和栅格化场景图像训练联合编码器进行轨迹预测的方法。它表明，基于文本的场景表示补充了图像编码的优势，并且联合编码器优于各自的对应部分。

决策与控制

在自动驾驶的决策和控制领域，有几项工作试图利用LLM的强大常识理解和推理能力来辅助驾驶员或是模拟并完全替代驾驶员。通过在AD中利用LLM进行闭环控制，大多数工作引入了一个记忆模块，用于记录驾驶场景、经验和其他重要的驾驶信息。

LanguageMPC 采用LLMs作为决策组件，解决需要人类常识理解的复杂自动驾驶场景。Drive as You Speak 提出了一个框架，将LLMs整合到自动驾驶中，并相应协调其他模块。驾驶员可以通过LLMs直接与车辆进行通信。该框架包括一个内存模块，将过去的驾驶场景经验保存在向量数据库中，其中包括决策线索、推理过程和其他有价值的信息。然后，LLMs根据所获得的经验和常识做出决策。DiLU 研究了人类驾驶员的驾驶方法，并提出了一个使用推理、记忆和反射模块促进LLMs与环境交互的范例。该方法将人类驾驶员的这些知识驱动能力嵌入到自动驾驶系统中。DwLLMs 将交通参与者和环境编码为对象级向量。它采用了一个两阶段的预训练和微调方法，使模型能够理解驾驶场景并生成驾驶动作。SurrealDriver 提出了一个基于LLMs的类人自动驾驶框架，该框架在CARLA模拟器内运行。通过记忆和安全机制，LLMs能够完成情境理解、决策和动作生成。它还学习人类驾驶员的驾驶习惯，并在闭环中持续优化驾驶技能。DLaH 引入了推理、解释和记忆模块，构建了一个基于GPT-3.5 和LLaMA-Adapter v2 的自动驾驶系统。它在场景理解和解决模拟中的长尾问题方面表现出强大的能力。

尽管现有的自动驾驶控制和决策工作完全依赖于低级逻辑模型 (LLMs)，但它们可以通过视觉-LLMs连接器与感知模块轻松连接，实现mid-to-mid或端到端的自动驾驶。

此外，为自动驾驶系统设计一个专门适用的视觉语言模型（VLMs）连接器是一个有前景的方向。相信在不久的将来会涌现出大量工作。

端到端自主驾驶

端到端自动驾驶系统是一个完全可微的系统，它将原始传感器数据作为输入，并产生规划和/或低级控制动作作为输出，这与VLMs中的M2T模型的结构非常契合。由于这种自然的协同作用，一些研究开始探索将M2T VLMs模型应用于端到端自动驾驶的可行性。与传统的端到端自主驾驶系统相比，基于大规模VLMs的端到端自动驾驶系统具有强大的可解释性、可信度和复杂的场景理解能力，为端到端自动驾驶的实际应用和实现铺平了道路。DriveGPT4 是利用大规模VLMs进行端到端自动驾驶任务的开创性工作，它将原始传感器数据和人类问题作为输入，并输出预测的控制信号和相应的答案。它保留了LLMs强大的zero-shot能力，并能处理未知情境。ADAPT 提出了一个基于Transformer模型的端到端自动驾驶流程。通过视频输入，ADAPT 连续输出控制信号以及操作的叙述和推理描述。与DriveGPT4不同，ADAPT 不包含视觉问答模块，而是将可解释的端到端自动驾驶转化为视觉字幕生成任务。

数据生成

借助生成网络的进展和成功，将条件生成模型应用于自动驾驶中，可以生成大规模高质量的数据，从而推动数据驱动型自动驾驶的发展。DriveGAN 学习驾驶视频序列及其相应的控制信号。通过将场景组件分解为动作相关和动作无关的特征，它可以控制生成视频中的车辆行为。这种能力使得高保真度、可控性的神经仿真和自动驾驶数据生成成为可能。BEVControl 以素描风格的BEV布局和文本提示作为输入，生成街景的多视角图像。它引入了控制器和协调器元素，确保素描和输出之间的几何一致性，以及多视角图像之间的外观一致性。这种方法有助于基于BEV素描进行可控自动驾驶场景样本生成的可能性。一些工作将世界模型纳入自动驾驶数据生成，以实现更合理、可预测和结构化的环境模拟。DriveDreamer 是一个完全从真实驾驶场景中学习的自动驾驶世界模型。它经历了两个训练阶段：首先从真实驾驶视频中理解和建模驾驶场景，从而获取结构化的交通信息。第二阶段通过视频预测任务构建驾驶世界模型，获得预测能力。GAIA-1 将视频、动作和文本描述作为输入，利用世界模型的强大能力来学习结构化表示并理解环境，将这些输入编码成一系列的标记。然后，它采用去噪视频扩散模型作为视频解码器，实现高度逼真的视频。

VLMs在智能交通系统中的应用

智能交通系统越来越普及，并且作为实现完全自动驾驶能力的重要一步。ITS通常由多传感器设置组成，由于其丰富而密集的语义信息，摄像头几乎总是存在的。与AD类似，VLMs也可以在许多方面促进ITS的发展，包括ITS感知和理解，以及ITS管理系统以及VLMs在ITS中的潜在应用。当前的工作如下表所示.

视觉语言模型在自动驾驶和智能交通系统中的应用全面调研

ITS的感知和理解

安装在交通基础设施上的多传感器系统数量的快速增长极大增强了ITS的能力。它促进了对交通环境的更全面的感知和理解，使ITS能够准确地识别和解读复杂的交通场景。

语言引导的车辆检索

车辆检索是ITS感知和理解的关键组成部分。为了引起研究人员在这个方向上的关注，AI City Challenge作为一个挑战任务举办了基于自然语言描述的车辆检索。作为这一集体努力的一部分，提出了一种基于自然语言的车辆多粒度检索方法。关键概念是引入基于语言增强的多查询检索模块。这个模块的思想是利用多个不完美的语言描述来实现更高的鲁棒性和准确性。另外MLVR提出了一种多模态语言车辆检索框架，它使用文本和图像提取器进行特征编码，随后通过视频识别模块生成视频向量序列。通过集成结合各种车辆特征的模块，MLVR为匹配控制创建了更丰富的车辆向量，并实现了语言引导的检索。

交通视觉场景推理

在ITS中，利用VLM的另一个新兴领域是视觉场景事件理解，通常形成为视觉问答（VQA）任务。文献70,提出了一种基于自动生成标题的弱监督交通领域视频问答与自动字幕方法。其核心贡献在于利用自动生成的合成标题对在线可用的城市交通视频进行微调，并将额外的交通领域知识注入到训练模型中。文献71提出了一种跨模态问题推理框架，用于识别事件级问题推理的时间原因背景。基于注意力的模块能够学习时间因果场景和问题对。文献72引入了Tem-Adapter，通过学习时间依赖关系来减小图像和视频领域之间的差距。在交通视频问答任务中表现出良好的性能。AnomalyCLIP采用CLIP模型进行视频异常检测。通过指定异常类别并使用上下文优化，它区分正常样本和异常样本，使模型能够识别异常实例。AnomalyCLIP在包括路边异常检测在内的各种数据集上取得了良好的结果。VLM增强的语义异常识别算法可以进一步扩展到ITS中的灾害或紧急响应。

ITS管理系统

ITS管理系统基于实时感知和场景理解提高交通系统的运营安全性和效率。通过管理交通信号，促进顺畅交通流动，及时更新道路状况，并提供及时事故报警。流量管理。先驱性研究探索了在交通流量管理领域中利用LLMs的应用，尤其是在交通信号控制方面。PromptGAT引入了一种基于提示的基于场地行动转换方法，这是LLMs在交通信号控制的实际应用中解决模拟到真实转换问题的首次应用。利用LLMs理解天气条件对交通状态和道路类型的影响，增强了在实际场景中政策的适用性，有效缩小模拟到真实的差距。

潜在应用

虽然许多方法已经探索了在各种交通场景中利用VLM的能力，但VLM在ITS中的全部潜力尚未得到充分发挥。

事故预测和检测

及时检测和预测事故的能力对确保道路安全至关重要。当前基于视觉的交通事故检测（TAD）和交通事故预测（TAA）仍面临着各种挑战，包括长尾和安全关键属性、复杂场景演变、恶劣环境和确定性不确定性。大模型VLM，凭借其在零样本泛化、深刻场景理解、边界案例识别和多步推理方面的卓越能力，成为解决当前挑战的有希望的解决方案。

崩溃报告

快速崩溃分析可以提高交通效率并防止进一步拥堵。M2V有条件的生成式虚拟语言模型代表一种潜在的解决方案。通过利用驾车人员记录的视频镜头以及他们的描述，该模型能够即时生成事故现场的叙述。根据事故发生时的驾驶员陈述，可以显著缩短处理意外情况的响应时间。

停车管理系统

智能停车解决方案可以利用语言引导导航和运动规划领域中展示的LLMs的规划能力,显著减少在城市地区寻找停车位的时间。通过与停车位管理系统集成，可以为车辆提供语言引导的路线指示，协助停车管理。通过与车辆端的语言引导导航系统接口，这种方法可以进一步增强，潜在地实现自动停车解决方案。

数据集

关于这方面的数据集可以参考下表

视觉语言模型在自动驾驶和智能交通系统中的应用全面调研

讨论

基于前面的论述，本节深入讨论与语言模型在自动驾驶和智能交通系统中的挑战和研究空白，并概述未来研究的潜在方向。

自动驾驶基础模型

现有的基础模型包括视觉基础模型、语言基础模型和多模态基础模型，为自动驾驶基础模型（ADFM）的可行性奠定了基础。ADFM定义为在广泛多样的数据集上进行预训练的模型，在解释性、推理、预测和自省能力方面表现出色，并且在感知、理解、规划、控制和决策等各种自动驾驶任务中具有高效性。一些研究已经做出了初步尝试，但如何将现有基础模型调整为ADFM，以使自动驾驶的客观性得以保持，仍然是一个相对未开拓的领域。

数据可用性和格式

尽管已经有许多现成的大规模自动驾驶数据集可用，但它们并不适合直接用于LLMs在AD和ITS中。例如，如何生成基于AD数据集的指令调整数据集并设计指令格式以适应ADFM的适应性仍然几乎没有研究。此外，一个大规模的图像-文本交通特定对数据集也可以对AD和ITS的发展非常有帮助，特别是对于依赖于VTM预训练模型的目标检测、语义分割、语言引导导航和语言引导检索的方法。

安全驾车对齐

LLMs 可能会产生与人类价值观相冲突的有偏见、有害的内容，需要进行对齐调整。同样，当训练10个自动驾驶基础模型时，对其控制策略、决策和响应机制与安全标准进行调整是至关重要的，以确保遵守稳定、安全和健康的驾驶价值观。在LLMs对齐调整方面，已有的技术，如来自人类反馈的强化学习(RLHF) 和监督对齐调整，都值得在这个领域尝试。

多模态适应性

如前面讲的目前利用LLMs进行运动规划、控制和决策的方法常常直接将传感器数据转换为文本表达，或者通过现有的感知算法或从仿真器中直接提取。虽然这种模块化方法简化了实验，但可能导致上下文和环境信息的丢失，并且严重依赖于感知算法的性能。因此，在自动驾驶场景中，研究建立视觉语言连接的可能性，可以是通过 VTM、VTF 或两者的混合作为简单手动重新制定的替代方向，值得追求。

时间场景理解

自动驾驶和ITS中的场景理解通常需要从视频中获取时间信息，以连续感知和理解交通环境和交通参与者的动态和因果关系。仅使用图像级别的VLMs 是不够的。例如，无法单凭一张单一图像判断车祸的具体原因。如下图

视觉语言模型在自动驾驶和智能交通系统中的应用全面调研

因此，如何处理交通场景的时间传感器数据是一个仍需探索的问题。一种可能的方法是训练一个视频-语言模型,在这方面，所有现有的视频-语言适配器都有潜在的应用价值。另一种可能的路线涉及将视频数据转换为可以由图像-语言模型处理的范式，通过必要的集成时间适配器层和微调，从而增强模型对交通环境中的时空信息的理解能力。

计算资源和处理速度

实时处理和有限的计算资源对自动驾驶和智能交通系统中模型部署构成重大挑战。当前的LLM通常包含数十亿个参数，使得微调和推理都需要高度的资源消耗，无法满足实时要求。有几种现有技术可以缓解这些问题。例如，参数高效微调(PEFT)减少可训练参数的数量，同时保持令人满意的模型性能，从而最小化了微调过程中的资源消耗。此外，与通用的LLM不同，自动驾驶所需的知识通常是专业化和领域特定的，LLM所包含的大部分知识实际上对自动驾驶来说是冗余的。因此，采用知识蒸馏来训练一个更小、更适合自动驾驶的模型是可行的方法。深度学习中的其他常见模型压缩技术，如量化和修剪，也适用于这个。

结论

这个综述总结了自动驾驶和智能交通系统中视觉语言模型VLM的背景、当前进展、潜在应用和未来发展方向。它全面总结和分析了该领域中的一些重要任务、方法和数据集。根据当前的研究，本工作阐述了目前的挑战、潜在的解决方案和未来的研究方向。

paper链接: https://arxiv.org/abs/2310.14414

视觉语言模型在自动驾驶和智能交通系统中的应用全面调研

原文链接：https://mp.weixin.qq.com/s/quGg0nK7jxv40ZXJ1F3KCg

本网站的内容主要来自互联网上的各种资源，仅供参考和信息分享之用，不代表本网站拥有相关版权或知识产权。如您认为内容侵犯您的权益，请联系我们，我们将尽快采取行动，包括删除或更正。

{{userData.name}}已认证

视觉语言模型在自动驾驶和智能交通系统中的应用全面调研

写在前面&&一点思考

这项工作的意义

有哪些贡献？

领域背景介绍

自动驾驶

智能交通系统

大语言模型

视觉语言模型

视觉语言模型VLMs在自动驾驶中的应用

感知和理解

导航与规划

决策与控制

端到端自主驾驶

数据生成

VLMs在智能交通系统中的应用

数据集

讨论

自动驾驶基础模型

数据可用性和格式

安全驾车对齐

多模态适应性

时间场景理解

计算资源和处理速度

结论

微软重磅发布Copilot系列，携手自研AI芯片Maia 100和Cobalt 100震撼亮相

微软推出Azure Maia 100和Azure Cobalt 100自研AI芯片

GeoSpy.ai

Globe Explorer

即梦Dreamina

Luma Dream Machine

Motionshop

StoryDiffusion

归档

{{userData.name}}已认证

写在前面&&一点思考

这项工作的意义

有哪些贡献？

领域背景介绍

自动驾驶

智能交通系统

大语言模型

视觉语言模型

视觉语言模型VLMs在自动驾驶中的应用

感知和理解

导航与规划

决策与控制

端到端自主驾驶

数据生成

VLMs在智能交通系统中的应用

数据集

讨论

自动驾驶基础模型

数据可用性和格式

安全驾车对齐

多模态适应性

时间场景理解

计算资源和处理速度

结论

微软重磅发布Copilot系列，携手自研AI芯片Maia 100和Cobalt 100震撼亮相

微软推出Azure Maia 100和Azure Cobalt 100自研AI芯片

详解NFNet：强大的ResNet变体，性能超越EfficientNet

YOLO-NAS：YOLO-NAS模型：最高效的目标检测算法之一

10个人工智能爱好者必知的关键术语

Cruise自动驾驶出租车每行驶4-5英里需人工协助一次