GPT-4：语言模型及其应用

释放双眼，带上耳机，听听看~！

本文介绍了GPT-4的工作原理和如何利用它构建AI应用，以及对应用中可能存在的难点进行了解释和说明。

CS50 是哈佛大学的一门最受学生欢迎的计算机科学导论性课程，这次，他们邀请到了 Steamship 创始人 Ted Benson 和麦吉尔大学新兴AI行为研究员 Sil Hamilton 共同来进行一场技术讲座，讲座的内容主要是介绍近期火爆的 GPT-4 是如何工作的，以及如何利用 GPT-4 构建AI应用。

GPT-4：语言模型及其应用

本文是对该讲座视频精华部分提炼后的图文版笔记，目的是方便学习者可随时回顾和总结课程内容。

——毕竟，图文阅读的效率总是要比观看视频高得多的。

此外，本文还对视频中可能存在理解难度的地方做了补充(💡标记)，以尽可能提升读者们的学习效果。

（本文的思维导图在文末，可自取。)

什么是 GPT ？

GPT-4：语言模型及其应用

有很多词汇可以用来描述 GPT ，比如生成式AI、聊天机器人等等。但如果要给它下一个准确的定义，那么它本质上就是一个语言模型(Language Models)。

它的主要任务，是对给定的一些单词生成概率分布。

它的核心目标，是预测下一个最有可能出现的单词。

它是怎么做到的呢？

GPT-4 是如何工作的？

语言模型

GPT 拥有一张包含了五万个单词的词汇表，它会基于互联网上的海量文本，大致了解每个单词后面可能会跟着哪些单词，并给出相应的出现概率。

GPT-4：语言模型及其应用

之后，它会通过不断地采样预测出的单词来生成文本。

具体过程如下：

假设我们要预测的是”I am…”后面的单词；
GPT会给出所有可能的单词及其概率；
假定我们选了概率最高的“happy”，并把它加到“I am”后面；
接下来，我们会把“I am happy”再次喂入模型，然后再选取下一个单词，再喂入；
重复这几个步骤，中间再加入一点随机性，就可以得到一个能写文章、能聊天的语言模型了。

但仅仅这样还不够。

💡 加入随机性的目的是为了让模型有一些创造力，不总是选择概率最高的单词，而是给其他可能性较低的单词一些机会。

大型语言模型

我们需要继续放大模型，给它更多的计算资源。我们可以用GPU来运行模型，加快上述过程。

我们还要给模型更多互联网上下载的信息，让它接触更多的英语范例，提高它的学习效果。我们必须把模型训练得更巨大、更广泛，才能让它有更好的表现力和能力。

基于问答模版的大型语言模型

现在，还剩最后一个问题。

那就是 GPT-3 没有一个专门用来回答问题的「接口」，如果我直接提出一个问题，而不是用文本预测的方式，GPT该怎么处理呢？

针对这个问题，OpenAI 想出了一个解决方案。那就是，给它一整套的问答模版。

首先还是在互联网上训练它，但训练数据改成了大量的问题和答案。这样，它就既能掌握互联网的知识，又能回答问题了。

就是在这种训练方式之下，ChatGPT 诞生了。

本质上，它仍然是一个语言模型，也依旧在做着预测单词的工作，但现在它知道要在一个问题的框架下进行预测了。

这——就是指令调优(Instruction tuning)。

GPT-4：语言模型及其应用

如何利用 GPT-4 构建AI应用？

GPT 不仅可以用来聊天，还可以在其基础上构建各种功能，并集成到各类软件中去。

下图就展示了一些基于GPT构建和部署的应用例子，其中有些已经投入生产使用，有些仍在实验阶段：

GPT-4：语言模型及其应用

陪伴(Companionship)

GPT-4：语言模型及其应用

陪伴类应用的定位就是一个「学习伙伴」，比如健身指导、口语外教等等。

构建此类应用的步骤如下：

提供一个提示包装器(Prompt Wrapper)，将 GPT 或其他语言模型包裹在其中；
向提示中注入某种特定的观点或目标。

其缺点就是，需要不断地迭代和设计，才能让它始终有效，并按照我们所期望的方式运行。

💡这里说的“不断地迭代和设计”指的是根据结果不断地改进我们的提示，不存在一个完美的提示，我们需要有一个良好的过程来探索适合我们自己的提示。

视频给出的例子是一个「成语老师」应用，这个应用可以根据你的问题场景给出一个合适的四字成语。

比如，当你想表达伤心的情绪时，应用给出的词就是：望洋兴叹。

GPT-4：语言模型及其应用

🤪“望洋兴叹”更多的应该是表示迷惘的情绪吧，这个“成语老师”中文功底不过关哪。。。

有两个技巧可以加快这类应用的构建过程。

技巧1：在提示中加入一些个性，也就是加入特定的视角，让它以这个视角与你交流；

💡这里说的就是我们喜闻乐见的角色扮演，比如设定它是一个“具有二十年开发经验的软件工程师”，那么多数情况下得到的回答会更加准确和专业。

技巧2：引入一些工具，比如搜索网络，生成图像，存储或获取数据等等；

💡这里说的应该是类似于ChatGPT的插件功能，插件功能可以扩展ChatGPT的能力，使其能联网查询最新的资料，能支持更多的回答形式，能将答案持久化存储等等。

将这些个性化的内容包装起来是很有意义的，因为这样我们就相当于拥有了一整个团队，且团队里的不同角色都可以和我们交流互动。

🤪赛博打工人是吧。。。一个空壳公司，一个光杆司令，一堆被设定为有二十年工作经验的产品经理GPT、程序员GPT、设计师GPT——可别让你老板看到。

问答(Question Answering)

GPT-4：语言模型及其应用

问答类应用的定位就是一个「专业顾问」，比如作业辅导，客服咨询等等。

其通常会更侧重于非通用知识的部分，比如根据你提供的文档或大纲内容来回答问题。

构建此类应用的步骤如下：

给它提供一个作为回答参考的文件
把这个文件切割成小块

这里说的切割，除了文法层面上的分句、分段、分章节之外，还有一种处理方式——向量转换。

向量转换的过程是这样的：

用一个滑动窗口在文档上滑动
提取文本片段
将文本转换成嵌入向量

嵌入向量是一组数字列表，它大致表示某种意义上的点。

💡可以把它理解为提取关键词的过程，只不过这里的关键词用一组数字表示。

用一个网上订餐的例子来说明会更容易理解，比如我们在搜索附近美食的时候，通常会从商家详情页提取出以下几个重要信息：

类型：中餐？日料？
评价：五星好评？还是差评如潮？
地址：一公里以内？两公里以内？

我们可以把这些提取到的信息想象成空间中的点或维度，比如网上订餐的这个例子就形成了一个三维向量。GPT也是一个多维向量，只不过它是一个千维级、万维级的向量。

不同的模型会产生不同大小的向量，但是它们所做的事情都是一样的，都是将文本分块，然后将其转换为一种近似表示意义的向量，把这些向量数字存储起来，就得到了一个向量数据库。

有了这个数据库，现在当我提出一个问题时，就可以搜索这个数据库，匹配跟这个问题相似的向量，从而找到对应的文本片段。往后的各种技巧，都是在这个方法的基础上进行改进。

但作为开发者，我们所需要做的，依然只是提供一个提示包装器，依然只是向提示中注入某种特定的观点或目标，这个提示就是：

你是回答问题的专家，

请使用源文档<文档>

来回答问题<提供问题>

视频给出的例子是一个「课程咨询」应用，这个应用需要上传教学大纲的PDF文件，然后就可以在输入框直接提问了。

GPT-4：语言模型及其应用

它会将问题转换为一个向量，这个向量可以近似地表示问题的含义，但并不完全相同，之后，它会查找由Streamship网站托管的向量数据库，从而得到答案。

实用功能(Utility functions)

GPT-4：语言模型及其应用

实用类应用的定位就是一个「效率工具」，比如网页摘要，推文筛选等等。

这些任务都可以自动化完成，但需要有基本的语言理解能力，而这正好是GPT这类语言模型所擅长的。

创造力(Creativity)

GPT-4：语言模型及其应用

创造力类应用的定位就是一个「灵感来源」，比如攥写文章，构思创意等等。

许多人的创作过程都不外如下：

提出一个大胆的想法
脑暴各种可能性
编辑你脑暴出来的内容
重复以上过程

脑暴这个过程特别适合交给AI完成，因为这个过程允许AI犯错，想法很重要，对错先放一边，因为我们才是负责最后修改的编辑，我们并不让GPT做决策，我们才是掌控方向的人。

但这也需要你对特定领域有深入的了解，这样才能筛选和改进GPT生成的内容。

视频给出的例子是一个「书单推荐」应用，这个应用会根据用户输入的故事梗概，搜索数据库中与之相似的故事，推荐给用户他可能感兴趣的书籍，并运用编辑和书商的知识，从他们的角度出发为你生成一些阅读建议。

GPT-4：语言模型及其应用

多步骤规划代理(Multi-step Planning)

GPT-4：语言模型及其应用

到目前为止，我们介绍的都是与GPT进行一次性交互的应用，属于基础玩法。还有一种更高级的玩法，就是把GPT放入一个循环中，让它自己和自己对话，并制定下一步的行动。

整个过程是这样的：

首先，给GPT设定一个人类目标；
其次，让GPT为自己制作一个步骤清单；
接着，让GPT自主执行清单里的步骤；
执行完毕之后，GPT会给出一个结果。

简单讲，就是我们赋予了GPT自主完成任务的能力，它的任务范围只受限于你能提供给它的工具和它所掌握的技能，这类GPT我们称之为代理。

视频给出的例子是一个Baby AGI代理，它可以：

根据提供的目标生成待办事项列表；
根据已完成事项的结果来创建新事项；
遇到问题时会自己上网搜索解决方案；
会根据优先级对事项进行正确排序；

GPT-4：语言模型及其应用

本质上，在我们启动它之后，代理就开始了自我对话的过程了。我们所要做的，就只是下载这个入门项目，然后就可以在提示中直接看到它是如何启动迭代过程的了。

最后，我们将本文的所有内容总结成了以下这张思维导图，可在线收藏或保存到本地：

GPT-4：语言模型及其应用

本网站的内容主要来自互联网上的各种资源，仅供参考和信息分享之用，不代表本网站拥有相关版权或知识产权。如您认为内容侵犯您的权益，请联系我们，我们将尽快采取行动，包括删除或更正。

{{userData.name}}已认证