释放双眼，带上耳机，听听看~！

本文从多模态大语言模型（MLLM）的研究进展与应用展开，介绍了MLLM的基础技术和应用，并对其未来发展进行了展望。

【新智元导读】一篇综述、一个仓库，速通多模态大语言模型。

近来，多模态大语言模型（Multimodal Large Language Model，MLLM）受到广泛关注，成为一个新兴的研究热点。

MLLM通常以大语言模型（Large Language Model，LLM）为基础，融入其它非文本的模态信息，完成各种多模态任务。

多模态大语言模型（MLLM）的研究进展与应用

相比于常规的多模态模型，MLLM涌现出一些令人惊叹的新能力，例如基于图片进行诗文创作和OCR-Free的数学推理等。这些强大的能力显示MLLM有望成为实现通用人工智能的一种途径。

为此，来自中科大、腾讯等机构的研究人员深入探讨了MLLM的研究进展并发表了该领域的首篇综述《A Survey on Multimodal Large Language Models》：

多模态大语言模型（MLLM）的研究进展与应用

论文链接：arxiv.org/pdf/2306.13…

多模态大语言模型（MLLM）的研究进展与应用

项目链接（实时更新最新论文）：github.com/BradyFU/Awe…

研究人员将MLLM定义为「由LLM扩展而来的具有接收与推理多模态信息能力的模型」，该类模型相较于热门的单模态LLM具有以下的优势:

更符合人类认知世界的习惯。人类具有多种感官来接受多种模态信息，这些信息通常是互为补充、协同作用的。因此，使用多模态信息一般可以更好地认知与完成任务。
更加强大与用户友好的接口。通过支持多模态输入，用户可以通过更加灵活的方式输入与传达信息。
更广泛的任务支持。LLM通常只能完成纯文本相关的任务，而MLLM通过多模态可以额外完成更多任务，如图片描述和视觉知识问答等。

该综述主要围绕MLLM的三个关键技术以及一个应用展开，包括:

多模态指令微调(Multimodal Instruction Tuning，M-IT)
多模态上下文学习(Multimodal In-Context Learning，M-ICL)
多模态思维链(Multimodal Chain of Thought，M-CoT)
LLM辅助的视觉推理(LLM-Aided Visual Reasoning，LAVR)

前三项技术构成了MLLM的基础，而最后一个是以LLM为核心的多模态系统。

三项技术作为LLM的代表性能力在NLP领域已有广泛研究，但扩展到多模态领域时会出现许多新的特点与挑战。

LLM辅助的视觉推理系统涉及几种典型的设计思路，即将LLM作为控制器、决策器或语义修饰器。

CVPR 2023最佳论文Visual Programming [1]即采用了将LLM作为控制器的设计思路。本文将对前述的几个方面以及相关挑战做简单的概览，更丰富的内容请参考原文。

多模态指令微调 M-IT

指令（Instruction）指的是对任务的描述，多模态指令微调是一种通过指令格式的数据（Instruction-formatted data）来微调预训练的MLLM的技术。

通过该技术，MLLM可以跟随新的指令泛化到未见过的任务上，提升zero-shot性能。多模态的指令格式如下所示：

多模态大语言模型（MLLM）的研究进展与应用

图1.M-IT格式

多模态指令数据的基本形式可以概括为（指令，多模态输入，回答）三元组。指令的设计可以分为手工设计与GPT辅助设计这两种方式。

前者指的是人工为每种任务设计一系列指令模板，比如对于传统的视觉问答任务，指令可以设计为「多模态大语言模型（MLLM）的研究进展与应用 What is the answer to the question? {question}」，其中和{question}（对应着图1中的）为原有视觉问答任务中的图像和问题。

另一种GPT辅助设计的方式是通过手工设计少量样例来Prompt GPT生成更丰富的指令。

对于多模态指令微调，研究人员从数据、模态桥接（Modality Bridging）和评测三个方面对现有工作进行了总结，如下图所示：

多模态大语言模型（MLLM）的研究进展与应用

图2.M-IT总结

多模态上下文学习 M-ICL

多模态上下文学习指的是给定少量样例作为Prompt输入，激发模型潜在的能力并规范化模型的输出。其样例如下图所示：

多模态大语言模型（MLLM）的研究进展与应用

图3.M-CoT样例

目前以Flamingo[2]为代表的M-ICL相关的研究工作还比较少。

LLM通常不需要专门的训练即可拥有ICL能力，但现阶段的MLLM还比较依赖训练，并且仍缺乏对样例选择和样例顺序等方面的深入研究。

多模态思维链 M-CoT

多模态思维链通过显示地逐步推理（给出中间的推理步骤）来获得多模态任务的答案。相比于直接输出答案，M-CoT在较为复杂的推理任务上能够取得更好的表现。

研究人员从模态桥接（Modality Bridging）、学习范式、思维链配置以及生成模式这四个方面总结了当前的研究：

多模态大语言模型（MLLM）的研究进展与应用

图4. M-CoT总结

目前M-CoT的研究也较少，仍处在初步探索阶段。

LLM辅助的视觉推理 LAVR

这类工作利用LLM强大的内嵌知识与能力以及其他工具，设计各种视觉推理系统。

相比于传统视觉推理模型，这些工作具有以下的好的特性:

（1）强大的零/少样本泛化能力

（2）具备新的能力，这些系统能够执行更加复杂的任务，如解读梗图的深层含义

（3）更好的互动性与可控性

研究人员从训练范式、LLM扮演的角色以及评测三个部分总结了当前的进展：

多模态大语言模型（MLLM）的研究进展与应用

图5.LAVR总结

挑战和未来方向

目前来看，MLLM的发展还处于起步阶段，无论是相关技术还是具体应用都还存在着许多挑战与可研究的问题，可以总结为以下几点:

现有MLLM的感知能力受限，导致获取的视觉信息不完整或者有误，并进一步使得后续的推理出错。这可能是因为现有模型在信息容量和计算负担之间的妥协造成的。
MLLM的推理链较为脆弱。表现为即使是做简单的多模态推理问题，模型有时仍会因为推理链条断裂导致输出错误答案。
MLLM的指令服从能力需要进一步提升。表现为在进行指令微调后，即使是较为简单的指令，部分MLLM仍然无法输出预期的答案。
物体幻视问题普遍存在。表现为MLLM输出的回复与图片的内容不相符，出现了编造物体等现象，影响了MLLM的可靠性。
高效参数训练。由于MLLM的模型容量很大，在计算资源受限的条件下，高效参数训练有望能够解锁更多MLLM的能力。

上述前四点问题在与本文同系列的论文（arxiv.org/pdf/2306.13…

除了上述问题外，MLLM在具体的子方向上也都只进行了初步探索，比如M-ICL目前仍然缺乏对样本选取以及排序的深入研究。

参考资料：

[1] Gupta, Tanmay and Kembhavi, Aniruddha. Visual programming: Compositional visual reasoning without training. CVPR 2023

[2] Alayrac, Jean-Baptiste and Donahue, Jeff and Luc, Pauline and Miech, Antoine and Barr, Iain and Hasson, Yana and Lenc, Karel and Mensch, Arthur and Millican, Katherine and Reynolds, Malcolm and others. Flamingo: a visual language model for few-shot learning. NeurIPS 2019

本网站的内容主要来自互联网上的各种资源，仅供参考和信息分享之用，不代表本网站拥有相关版权或知识产权。如您认为内容侵犯您的权益，请联系我们，我们将尽快采取行动，包括删除或更正。

{{userData.name}}已认证

多模态大语言模型（MLLM）的研究进展与应用

【新智元导读】一篇综述、一个仓库，速通多模态大语言模型。

多模态指令微调 M-IT

多模态上下文学习 M-ICL

多模态思维链 M-CoT

LLM辅助的视觉推理 LAVR

挑战和未来方向

如何利用GPTs提高生产力：入门指南

OpenAI 完成新一轮融资，估值近300亿美元

GeoSpy.ai

Globe Explorer

即梦Dreamina

Luma Dream Machine

Motionshop

Kling AI | Sora-Like Video Model

归档

{{userData.name}}已认证

【新智元导读】一篇综述、一个仓库，速通多模态大语言模型。

多模态指令微调 M-IT

多模态上下文学习 M-ICL

多模态思维链 M-CoT

LLM辅助的视觉推理 LAVR

挑战和未来方向

如何利用GPTs提高生产力：入门指南

OpenAI 完成新一轮融资，估值近300亿美元

GPT原理与使用技巧

如何选择ChatGPT API方式？比较ChatGPT API和ChatGPT Unofficial ProxyAPI

Meta发布Llama 2开源大动作，AI领域再次掀起风暴

DALL ・ E 3：集成ChatGPT的新特点和生成效果