释放双眼，带上耳机，听听看~！

本文总结了ChatGPT与LLM技术的现状和核心竞争力，探讨了LLM的优点、局限和重要研究课题，同时对LLM的统一实现进行了讨论。

本文是对《对语言大模型的若干观察和思考》等网文总结

ChatGPT与LLM技术现状

LLM的主要手段

模型：Transformer拥有强大的表示能力，能对具有组合性(compositinality)的语言进行很好的表示和学习。

预训练（pre-training）：使用大规模文本数据进行语言建模（language modeling），学习进行的是数据压缩，也就是单词序列的生成概率最大化或预测误差最小化。

监督微调 SFT（supervised fine tunning）：学习的是输入到输出的映射， $X \to Y$ , 或者是输入到输出的映射及产出过程 $X, C_1⋯,C_n→Y$ ，学习到模型的基本行为。这里， $C_1⋯,C_n$ 代表思维链。

基于人类反馈的强化学习 RLHF（reinforcement learning from human feedback）：根据人的反馈，调整模型的整体行为。

LLM 核心竞争力

ChatGPT 和 GPT4 相比传统的深度学习技术，如 BERT，主要是在智能性和通用性上取得了巨大突破。具备语言、知识、简单推理能力，能够很好地近似人的智能行为。不需要标注数据就可以在不同领域完成不同任务，也就是进行零样本或小样本学习

LLM 带来的巨大进步。究其原因：

一是使用大数据大模型大算力 规模带来了质的变化。
ChatGPT 有 175B 参数，300B 的 token 做训练。而之前的模型参数规模超过 1B 的都不多。
二是 Open AI 开发出了一套调教大模型的方法，包括基本步骤、技巧和工程实现 利用语言建模的机制将人的知识和能力输入给大模型。大规模系统的工程实现和模型的调教方法成了 Open AI 的核心竞争力。

LLM 的优点和局限

LLM 已经非常强大。但也有大家指出的明显需要解决的问题：

1. 如何优化模型，也就是降低训练和使用成本，同时扩大可处理问题的规模。
2. 如何保证模型生成内容的真实性，也就是避免幻觉。
3. 如何构建可信赖大模型，也就是保证模型生成结果的有用性，安全性等。

LLM 重要研究课题

LLM 的优化
LLM 的真实性
可信赖 LLM 与 AI 伦理
LLM 的理论
多模态大模型
LLM + 逻辑推理
智能体（agent）

面向未来，多模态大模型、LLM+ 逻辑推理、智能体等都是重要的研究课题，尤其是多模态大模型、LLM+ 逻辑推理。

LLM 的统一实现

LLM 实现所有自然语言处理任务

目前为止，自然语言处理有六个大的任务，包括分类、匹配、标注和语义分析、序列生成、序列到序列、序贯决策。

分类：从文字序列到标签的映射，如文本分类。
匹配：文字序列与文字序列的匹配，如搜索、阅读理解。
标注和语义分析：文字序列到标签序列或结构表示的映射，如分词、词性标注、句法分析。
序列生成：文字序列的生成，也就是基于语言模型的生成。
序列到序列（seq2seq）：文字序列到文字序列的转化，如机器翻译、生成式对话、摘要。
序贯决策：基于已有的文字序列产生新的文字序列，如多轮对话。

前三个是语言理解任务，后三个是语言生成任务。理解任务的输出是类别标签等，可以认为是心智语言的表示。

所有的任务都可以用序列到序列 seq2seq 模型实现。语言理解是自然语言到心智语言的 seq2seq。语言生成是心智语言到自然语言的 seq2seq。语言转换是一种自然语言到另一种自然语言的转换。

语言大模型发展现状与挑战：ChatGPT与LLM技术总结

多模态大模型

多模态大模型指的是将文本、图像、视频、音频等多模态信息联合起来进行训练的模型。

代表性的MLLM分为4种主要类型：

多模态指令调整（MIT）

多模态上下文学习（M-ICL）

多模态思想链（M-CoT）

LLM辅助视觉推理（LAVR）

前三个构成了MLLM的基本原理，而最后一个是以LLM为核心的多模态系统。但前三种技术也都是是相对独立的，并且可以组合使用。

多模态处理应该是 LLM 之后未来人工智能发展的重要方向。多模态研究最近也有很多进展。比如，视觉语言模型（vision language model）方面，Open AI 开发的 CLIP 模型是视觉语言对齐上最有代表性的模型。字节跳动也开发了 X-VLM 模型，在细粒度的多模态理解任务上有最好的表现。

LLM 与数学能力

数学能力包括几种能力，有逻辑推理、算术计算、代数计算、几何概念理解等。

人的数学解题有两种机制，分别使用心理学称作的系统 1 和系统 2，进行快的思维（基于死记硬背）和慢的思维（进行深入思考）。用LLM直接解题，对应着系统 1。用 LLM 产生心智语言，在心智语言的基础上进行解题，对应着系统 2。

LLM 本身具备类推推理（analogical reasoning）的能力，但不具备逻辑推理（logical reasoning）的能力（逻辑推理是指基于三段论的推理）。因此，LLM 可以做一些简单的数学计算、数学解题。对比于人，相当于用死记硬背的方法做数学。虽然 GPT4 展现出了非常强的数学解题能力，求解复杂的数学问题应该还需要其他机制。

附录

《对语言大模型的若干观察和思考》主要观点

ChatGPT 的突破主要在于规模带来的质变和模型调教方式的发明。
LLM 融合了实现人工智能的三条路径。
LLM 的开发需要结合第三者体验和第一者体验。
LLM 能近似生成心智语言。
LLM 需要与多模态大模型结合，以产生对世界的认识。
LLM 本身不具备逻辑推理能力，需要在其基础上增加推理能力。

Transformers

语言模型不仅仅是一个神经网络。

现代语言模型包含各种组件或块，通常由不同的神经网络组成，每个组件或块都设计用于执行特定任务并具有专门的体系结构。「几乎所有当前的 LM 都基于一种特别成功的架构选择，那就是Transformer」。

从自然语言处理 (NLP) 领域开始，Transformers 已经彻底改变了几乎所有应用 AI 领域，因为它们能够高效地一次处理大量数据（并行化）而不是顺序处理，这一特性允许在更大的数据集上进行训练数据集比以前的现有架构。在文本数据上，Transformers 被证明非常擅长执行某种形式的自然语言上下文理解，这使它们成为当今大多数NLP任务的标准选择。两个组成部分是成功的关键：注意力机制和词嵌入。

RLHF三步骤

RLHF用于训练ChatGPT，OpenAI通过三步过程微调 ChatGPT:

初初步 有一批通过工人标注与OpenAI的API请求由取的数据构建成的训练数据集。然后使用该数据集以监督方式微调预训练模型，生成监督微调 (SFT) 模型。

第二步 围绕偏好排序。标注者（或注释者）的任务是对多个 SFT 模型输出进行投票，从而创建一个由比较数据组成的新数据集。

第三步 及应用强化学习通过奖励模型向 SFT 模型传授人类偏好策略，基本上如上一节所述。 SFT 模型通过奖励模型进行微调。结果就是所谓的政策模型。

参考

字节跳动李航：对语言大模型的若干观察和思考

大型自然语言模型（LLM）发展与关键技术

本网站的内容主要来自互联网上的各种资源，仅供参考和信息分享之用，不代表本网站拥有相关版权或知识产权。如您认为内容侵犯您的权益，请联系我们，我们将尽快采取行动，包括删除或更正。

{{userData.name}}已认证

语言大模型发展现状与挑战：ChatGPT与LLM技术总结

ChatGPT与LLM技术现状

LLM的主要手段

LLM 核心竞争力

LLM 的优点和局限

LLM 重要研究课题

LLM 的统一实现

多模态大模型

LLM 与数学能力

附录

《对语言大模型的若干观察和思考》主要观点

Transformers

RLHF三步骤

使用智增增API构建AI助手

大白话聊聊ChatGPT的历程和NLP

GeoSpy.ai

Globe Explorer

即梦Dreamina

Luma Dream Machine

Motionshop

StoryDiffusion

归档

{{userData.name}}已认证

ChatGPT与LLM技术现状

LLM的主要手段

LLM 核心竞争力

LLM 的优点和局限

LLM 重要研究课题

LLM 的统一实现

多模态大模型

LLM 与数学能力

附录

《对语言大模型的若干观察和思考》主要观点

Transformers

RLHF三步骤

使用智增增API构建AI助手

大白话聊聊ChatGPT的历程和NLP

ChatGPT: 了解这个基于GPT-3.5架构的大型语言模型

LangChain：LangChain框架介绍 | 京东云技术团队

Falcon 180B：世界顶级开源大模型官宣，性能直逼GPT-4

ChatGPT：未来智能语言模型，解放大脑，你还不来？