本文是对《对语言大模型的若干观察和思考》等网文总结
ChatGPT与LLM技术现状
LLM的主要手段
模型:Transformer拥有强大的表示能力,能对具有组合性(compositinality)的语言进行很好的表示和学习。
预训练(pre-training):使用大规模文本数据进行语言建模(language modeling),学习进行的是数据压缩,也就是单词序列的生成概率最大化或预测误差最小化。
监督微调 SFT(supervised fine tunning):学习的是输入到输出的映射,X→YX→Y, 或者是输入到输出的映射及产出过程 X,C1⋯,Cn→YX, C_1⋯,C_n→Y,学习到模型的基本行为。这里,C1⋯,CnC_1⋯,C_n 代表思维链。
基于人类反馈的强化学习 RLHF(reinforcement learning from human feedback):根据人的反馈,调整模型的整体行为。
LLM 核心竞争力
ChatGPT 和 GPT4 相比传统的深度学习技术,如 BERT,主要是在智能性和通用性上取得了巨大突破。具备语言、知识、简单推理能力,能够很好地近似人的智能行为。不需要标注数据就可以在不同领域完成不同任务,也就是进行零样本或小样本学习
LLM 带来的巨大进步。究其原因:
-
一是使用大数据大模型大算力 规模带来了质的变化。
ChatGPT 有 175B 参数,300B 的 token 做训练。而之前的模型参数规模超过 1B 的都不多。 -
二是 Open AI 开发出了一套调教大模型的方法,包括基本步骤、技巧和工程实现 利用语言建模的机制将人的知识和能力输入给大模型。大规模系统的工程实现和模型的调教方法成了 Open AI 的核心竞争力。
LLM 的优点和局限
LLM 已经非常强大。但也有大家指出的明显需要解决的问题:
- 1. 如何优化模型,也就是降低训练和使用成本,同时扩大可处理问题的规模。
- 2. 如何保证模型生成内容的真实性,也就是避免幻觉。
- 3. 如何构建可信赖大模型,也就是保证模型生成结果的有用性,安全性等。
LLM 重要研究课题
- LLM 的优化
- LLM 的真实性
- 可信赖 LLM 与 AI 伦理
- LLM 的理论
- 多模态大模型
- LLM + 逻辑推理
- 智能体(agent)
面向未来,多模态大模型、LLM+ 逻辑推理、智能体等都是重要的研究课题,尤其是多模态大模型、LLM+ 逻辑推理。
LLM 的统一实现
LLM 实现所有自然语言处理任务
目前为止,自然语言处理有六个大的任务,包括分类、匹配、标注和语义分析、序列生成、序列到序列、序贯决策。
-
分类:从文字序列到标签的映射,如文本分类。
-
匹配:文字序列与文字序列的匹配,如搜索、阅读理解。
-
标注和语义分析:文字序列到标签序列或结构表示的映射,如分词、词性标注、句法分析。
-
序列生成:文字序列的生成,也就是基于语言模型的生成。
-
序列到序列(seq2seq):文字序列到文字序列的转化,如机器翻译、生成式对话、摘要。
-
序贯决策:基于已有的文字序列产生新的文字序列,如多轮对话。
前三个是语言理解任务,后三个是语言生成任务。理解任务的输出是类别标签等,可以认为是心智语言的表示。
所有的任务都可以用序列到序列 seq2seq 模型实现。语言理解是自然语言到心智语言的 seq2seq。语言生成是心智语言到自然语言的 seq2seq。语言转换是一种自然语言到另一种自然语言的转换。
多模态大模型
多模态大模型指的是将文本、图像、视频、音频等多模态信息联合起来进行训练的模型。
代表性的MLLM分为4种主要类型:
- 多模态指令调整(MIT)
- 多模态上下文学习(M-ICL)
- 多模态思想链(M-CoT)
- LLM辅助视觉推理(LAVR)
前三个构成了MLLM的基本原理,而最后一个是以LLM为核心的多模态系统。但前三种技术也都是是相对独立的,并且可以组合使用。
多模态处理应该是 LLM 之后未来人工智能发展的重要方向。多模态研究最近也有很多进展。比如,视觉语言模型(vision language model)方面,Open AI 开发的 CLIP 模型是视觉语言对齐上最有代表性的模型。字节跳动也开发了 X-VLM 模型,在细粒度的多模态理解任务上有最好的表现 。
LLM 与数学能力
数学能力包括几种能力,有逻辑推理、算术计算、代数计算、几何概念理解等。
人的数学解题有两种机制,分别使用心理学称作的系统 1 和系统 2,进行快的思维(基于死记硬背)和慢的思维(进行深入思考)。用LLM直接解题,对应着系统 1。 用 LLM 产生心智语言,在心智语言的基础上进行解题,对应着系统 2。
LLM 本身具备类推推理(analogical reasoning)的能力,但不具备逻辑推理(logical reasoning)的能力(逻辑推理是指基于三段论的推理)。因此,LLM 可以做一些简单的数学计算、数学解题。对比于人,相当于用死记硬背的方法做数学。虽然 GPT4 展现出了非常强的数学解题能力,求解复杂的数学问题应该还需要其他机制。
附录
《对语言大模型的若干观察和思考》主要观点
ChatGPT 的突破主要在于规模带来的质变和模型调教方式的发明。
LLM 融合了实现人工智能的三条路径。
LLM 的开发需要结合第三者体验和第一者体验。
LLM 能近似生成心智语言。
LLM 需要与多模态大模型结合,以产生对世界的认识。
LLM 本身不具备逻辑推理能力,需要在其基础上增加推理能力。
Transformers
语言模型不仅仅是一个神经网络。
现代语言模型包含各种组件或块,通常由不同的神经网络组成,每个组件或块都设计用于执行特定任务并具有专门的体系结构。「几乎所有当前的 LM 都基于一种特别成功的架构选择,那就是Transformer」。
从自然语言处理 (NLP) 领域开始,Transformers 已经彻底改变了几乎所有应用 AI 领域,因为它们能够高效地一次处理大量数据(并行化)而不是顺序处理,这一特性允许在更大的数据集上进行训练 数据集比以前的现有架构。在文本数据上,Transformers 被证明非常擅长执行某种形式的自然语言上下文理解,这使它们成为当今大多数NLP任务的标准选择。两个组成部分是成功的关键:注意力机制和词嵌入。
RLHF三步骤
RLHF用于训练ChatGPT,OpenAI通过三步过程微调 ChatGPT:
初初步 有一批通过工人标注与OpenAI的API请求由取的数据构建成的训练数据集。 然后使用该数据集以监督方式微调预训练模型,生成监督微调 (SFT) 模型。
第二步 围绕偏好排序。标注者(或注释者)的任务是对多个 SFT 模型输出进行投票,从而创建一个由比较数据组成的新数据集。
第三步 及应用强化学习通过奖励模型向 SFT 模型传授人类偏好策略,基本上如上一节所述。 SFT 模型通过奖励模型进行微调。 结果就是所谓的政策模型。
参考