GPT-4到GPT-5：如何更好更快地学习和追赶LLM技术？

释放双眼，带上耳机，听听看~！

本文介绍了如何更好更快地学习和追赶LLM技术，包括基础论文阅读、复现和追赶技术、LLM的影响和取舍，适合想要了解新技术的技术/非技术从业者。

作为CEO，Sam将OpenAI的内部氛围组织的很好，有位OpenAI的前员工告诉拾象团队，当2018年GPT-2的论文被驳回时，Sam在团队周会上将拒信的内容朗读给所有员工，并告诉大家在通往成功的路上总会有阻碍，但是大家一定要有信念。

前言

基于当前GPT-4的已公开能力，以及OpenAI内部的一些消息，GPT-5的能力会更加强大，但考虑到后续其他生态的配套等发展，下次发布可能会等生态的逐步完善和发展，而这个时候有可能会像iphone4一样经典。

最近这几个月，大家都感觉各个研究机构的人都不睡觉，你追我赶在疯狂发paper，arxiv这个平台的出现可真是满足了他们的高产诉求，每个晚上都好像在大跃进。除了paper，现在新的git项目，甚至新的公司都在层出不穷，看了这些消息，我的内心对这些人的态度就像是下图：

GPT-4到GPT-5：如何更好更快地学习和追赶LLM技术？

奈何，他们前进的步伐不受狙击，所以我想如何才能更好更快的不被他们牵着鼻子走呢？当然就是比他们更卷，他们不睡觉，那我不仅不睡觉，还不吃饭，不上厕所，不洗澡……nope

嗯，合理的方式，是将主要的脉络抓清楚，对问题有自己的框架认识。论文并非都需要读，抓到关键paper，合理利用大佬发布的博客，加速对问题的理解。在基础了解之后，再阅读最新的paper。很快，就会发现，emm 大部分论文……读起来变顺畅了（确实有一些论文是可以略读的）在这个基础上，找到自己想要深入的点，再深入研究即可。

在LLM发展日新月异的今天，如何快速follow，事半功倍，无论是针对技术还是非技术同学，都是一个需要思考的问题。本文分为四个方面来切入，首先进行基础论文的分享和串讲，这些是从技术上了解当前LLM的基础，有了他们才有可能可以快速follow新的知识；第二部分重点讲复现和追赶，进行这个工作重点需要考虑哪些方面；第三部分基于LLM理解它会带来怎么样的变革和影响；最后一部分是一个take away，总结要点。

本文适合读者：想要follow新技术的技术/非技术从业者；想要检验一个人是否在不懂装懂……可以作为参考；作为建立对LLM认知体系的基础，这样每次看到新的知识是可以直接叠加进去的。

基础论文阅读

首先我们要明白一个事情。论文，一般都是针对某几个SOTA问题，甚至是一个SOTA问题的针对性讨论，其中附带了这个问题的前因后果，对其的实验论证和分析，以及给他人挖的坑，所以它天然就不是给初学者写的东西啊。在读论文之前，先搞明白基础，然后再有顺序的，有根据，【有选择】的读论文，就不会出现理解上的困难。特意强调有选择，是有一些论文已经过时了，不用看了。除非要做相关问题研究，需要对比，或者了解前人做过的实验，否则，想学会怎么开汽车，或者学会怎么改装汽车轮胎，确实不需要知道怎么养马。

首先需要了解LLM的一些基础知识，入门一定要从语言模型入门，这个只要是个学过数学的学生就能看懂的，而且是要了解LLM的基础。
可以参见：zhuanlan.zhihu.com/p/608047052

GPT-4到GPT-5：如何更好更快地学习和追赶LLM技术？

github.com/Mooler0410/…

上图可以看到一张很酷炫的图，有整理的论文大集合，但要注意这不是学习路线！看着开心最重要。

这里将最重要的与chatGPT相关的论文列出，其中前8篇是基础LM，后两篇则是训练方法。

【GPT-1】Improving Language Understanding by Generative Pre-Training. [pdf] 2018.6
【GPT-2】Language Models are Unsupervised Multitask Learners. [pdf] 2019.2
【GPT-3】Language Models are Few-Shot Learners. [pdf] 2020.5
【CodeX】Evaluating Large Language Models Trained on Code [pdf] 2021.7
【WebGPT】WebGPT: Browser-assisted question-answering with human feedback. [pdf] 2021.11
【InstructGPT】Training language models to follow instructions with human feedback. [pdf] 2022.3
【ChatGPT】 blog: openai.com/blog/chatgp… 2022.11.30
【GPT-4】arxiv.org/pdf/2303.08… 2023.3R
【RLHF】Augmenting Reinforcement Learning with Human Feedback. [pdf] 2011.7
【PPO】Proximal Policy Optimization Algorithms. [pdf] 2017.7

chatGPT的诞生

从时间上我们看一下，在iGPT出现之前，先后尝试了CodeX、WebGPT两个工作，然后在这个基础上训练了iGPT以及出圈的cGPT

下图我们看到，自2017年tranformer这个特征提取器发表以来，基于它其实有三条经典路线，GPT、T5、Bert。用直白的话讲，Decoder-only的是GPT系列，encoder-only的是bert系列，而T5则是原本的en-de，是在transformer的基础上发展来的。在这些信息的基础上，我们可以看到gpt、t5和bert本身是三条不同的技术路线，自然他们在擅长的任务，各自的特点上也有所不同。

GPT：自回归，适合做生成；由于其特点，为了在理解任务上达到和bert相同的效果，成本较高。
T5：en-de，理论上是结合了GPT和BERT的优点，但会带来参数的暴涨，训练成本很高，google提出后并未过多发展，性价比相比GPT暂时未知（但我觉得潜力很大）；T5统一了NLP任务的形式，一切都可以是Text2Text的形式，与GPT解决问题的思路是一致的。
Bert：自编码，不适合做生成，在理解任务上finetune形式性价比很高。

GPT-4到GPT-5：如何更好更快地学习和追赶LLM技术？

当前我们来核心看看cGPT是怎么诞生的，其他就先不管了。GPT1到GPT3，CodeX、WebGPT、InstructGPT是关键的几个论文，也是我们能够最直接了解到OpenAI当前工作进展的几个开源工作，而RLHF与PPO则是训练方法相关的论文，为了达到cGPT的效果，这些训练方法起到了重要的作用。

GPT（GPT-1）：这是GPT系列的第一个模型，发布于2018年。GPT-1拥有1.17亿参数，其突破性之处在于引入了单向上下文建模，通过预测下一个词来生成连贯文本。
- 从此时起，让NLP进入了预训练大语言模型+finetune的时代。
GPT-2：发布于2019年，GPT-2具有15亿参数，相较于GPT-1有很大的改进。它使用了更大的训练数据集，提升了模型在处理不同语言任务和生成连贯文本方面的能力。当时，GPT-2因其生成能力强大而引起关注，甚至引发了有关潜在滥用风险的讨论。
- 开放了API，开源了一个相对小的模型，没有开源论文中的所有模型
- 论证了zero-shot的效果和promising的前景
- 开始了大数据，大模型的演进之路
GPT-3：发布于2020年，GPT-3是当时最大、最强大的自然语言处理模型之一。它拥有1750亿参数，对比GPT-2有很大的扩展。GPT-3在多种任务中表现出色，如代码生成、文本生成、问答等，甚至可以在未经微调的情况下完成某些任务。尽管GPT-3取得了显著的进步，但仍存在一些问题，如偶尔产生有害或不相关的内容。（开始close AI）
- 提出了in-context learning，避免fintune会将模型的信息遗忘，导致能力下降。泛化性变弱。
- 带领了Prompt的兴起（其实GPT/bert的时候就已经有了初步的prompt，当时为了构建一些任务或者训练样本，会对数据做一些小改动）
CodeX：发布于2021，基于GPT-3 finetune得来，专门用于提高软件开发和编程的效率和质量，也是Copilot背后的技术支持。相关研究发现，在大量科学文献 / 代码上进行训练可以显著提高基础模型的推理/编码能力。
- 在给定数据集HumanEval上论证了LLM在解决代码编写问题上的可能性，在repeated sampling机制下Codex能解决大部分的编程问题
- 引起广泛关注和讨论：CodeX的发布引起了广泛的关注和讨论，认为它将极大地改变软件开发和编程的方式。但同时也引发了一些担忧和问题
- 这个工作的诞生为后续chatGPT强大的代码能力埋下了伏笔（我理解也是坚定了OpenAI的信心）
- 代码的强逻辑性和规范性，猜测有利于LLM的能力优化
WebGPT：同样在2021年，基于GPT-3 finetune得来，是一次与Bing的强联合，利用Bing API创建了一个模型和交互的搜索浏览环境，先利用Bing API进行信息检索，然后将检索的结果+问题交给LLM进行解答（这个过程会重复进行，由模型决策，pre-autogpt）
- 收集了用户行为数据，用来教模型决策（嗅到了autogpt的味道）
- 这里和后续的cGPT其实很像，都是对问题的回答，但用了Bing的检索结果作为LLM的Prompt
- 这篇论文的训练方法中用到了基于BC的SFT（这里的BC就是用户行为数据Behavior cloning），基于BC模型训练了一个RM模型，从而将RM输出的奖励（惩罚）使用PPO算法在对BC模型进行微调，以进一步提高模型的学习效果
- 这篇工作就是iGPT的前序工作，只是在iGPT中将对齐的内容/目标做了改动，里面暴露了很多数据收集分析上的细节，同时也是LLM和搜索的一个结合的重要工作。
- 果然是微软的一个研究院
InstructGPT：较为详细的介绍了iGPT，大家也是认为这个工作是cGPT的重点暴露，因为cGPT号称和iGPT的技术点几乎一模一样。而iGPT的核心主要有三点：
- Alignment：与用户对齐的理念，好的技术方案设计和执行导致了其良好的效果。这一点非常关键
- SFT训练(supervised fine-tuning)：收集prompt&Answer pair（对于cGPT来说，prompt&answer的的格式是dialogue format的），基于这些数据对LM进行SFT训练(supervised fine-tuning)
- RLHF：
  - RM：奖励模型的训练(reward model training)。基于收集好的prompt，让SFT好的模型输出结果，然后人工标注好，让RM学习哪些标注好的数据是正确的
  - PPO：近端策略优化模型( reinforcement learning via proximal policy optimization)：基于上面训练好的两个模型，让SFT对prompt进行输出，然后基于RM给出的分数作为模型自我迭代的依据，从而不断优化模型。
cGPT：理论上和instructGPT是并行关系，只是在数据格式上有所不同：We mixed this new dialogue dataset with the InstructGPT dataset, which we transformed into a dialogue format.

GPT-4到GPT-5：如何更好更快地学习和追赶LLM技术？

InstructGPT

GPT-4到GPT-5：如何更好更快地学习和追赶LLM技术？

ChatGPT

从上面的工作我们可以看到，18年开始，确定一个技术方向，在这个过程中不断的尝试，不断基于之前的工作进行修正，探索，一步一步前进，这个过程很有趣，最终得到了cGPT。在后面，我们会借用一张图来整体看一下OpenAI的发展历程。

技术点概括

我们浏览一下以上的论文，可以总结出其取得当前成绩的关键点：

infra：需要提前建设的基础
算力：硬件（钱和基础设施支持
工程：随着数据上升，工程与算法的互相匹配实现就很重要
数据：决定了上限：公开数据有很多，但具体如何收集，如何处理、分析应用是关键
从论文中，我们看到即便是公开数据，也花了很大的功夫去分析比如train/test之间的覆盖，benchmark对模型的评估与模型训练数据之间的关系等要素影响
训练数据的选择清洗很细节
收集用户标注数据的时候，有很细节的设计，包括但不限于gui，数据可靠性机制设计等
决定了应用效果
算法：模型设计决定了能多逼近上限。
评估标准：（量化）评估模型性能。论文中虽然没有提出一个评估标准，但是我们看到OpenAI做了大量的工作来分析模型性能，以及数据对模型性能的影响。有评估，才能知道模型当前的进展以及新的工作怎么发展。（参见GLUE or CLUE）
Wrapper for 应用：
技术应用：Prompt-engineer；梳子模型
业务应用：chatgpt等
商业化方式：除了产品使用会员制外，暂无明确路径

GPT-4到GPT-5：如何更好更快地学习和追赶LLM技术？

对梳子模型的解释，以LLM作为基底，prompts作为上层应用，这就是PE的重点发挥

团队构建：有动力，有灵魂人物拍板，合理的商业化运作（做事情是需要正反馈的）

模型	介绍
GPT4	预计参数量1-1.7w亿，支持文本和图像，输出文本（但是可以支持编程绘图），在各项任务上表现更好
GPT3.5（instructGPT和chatGPT）	1750亿参数，文字输入输出；规范了Alignment这个概念，规范了训练流程：SFT、RLHF（RW+PPO）；基于上文，我们看到这里集合了WebGPT和CodeX的优点。
GPT3	1750亿参数，文字输入输出。提出in-context learning（0/few-shot）
GPT2	15亿参数，文字输入输出。弱化版GPT3，也是大家摸索GPT3的重要参考
GPT1	1.17亿参数，文字输入输出，无监督预训练，task oriented finetuning->下游任务上需要finetune，没有足够泛化性，同时finetune需要数据

复现与追赶

在当前有一个真理可以记住，只要有人说：“论文都是公开的，技术都是现成的，只要有钱，给一定的时间，大家训练个大预言模型追上SOTA不是分分钟的事情。”就一定是外行。

chatGPT的工程、模型和算法细节没有公开，数据处理细节没有公开；当前openAI已经将相关技术作为商业机密进行保留，从GPT-3就开始保密，至今已经有三年。如果我和你有商业竞争关系，我告诉你：你看吧，网上公开的技术路线就是我现在用的，只不过在这里那里做了一些修改，放大缩小啥的，很简单，你跟着做一定可以的。——emmm，嗯？

当然不是说追不上，做不到，只是这个过程也是需要时间精力金钱的付出才可以的。

当前大模型

由于我们是想要跟进最新的内容，所以自然可以放弃很多过程指标。之前讲到，整体其实有两条路线可以走，T5和GPT。我们以这样的方式列出来。

对于应用和学术，要以两种视角来看待。应用方，当前一定关心的是chatLLM，因为这是一个可以在淘金时代卖水以及最快测试应用场景的基础应用；而技术视角，除了关心chatLLM，还应该关注其底层的LLM是什么，这才是基础。以下是截止成文的时候比较流行的工作，从开源程度以及运行的成本看，Moss/ChatGLM/Bloom/LLaMA这几个工作有利于进行复现或者本地运行。

名称	介绍	地址
Moss	复旦大学邱老师组发布的语言模型，支持对话，全部开源，推荐了解和学习。	github.com/OpenLMLab/M…
ChatYuan	元语智能发布，孵化于中文NLP开源社区CLUE。CLUE整合大量中文资源，均由NLP自由开发/爱好者推动，推荐了解。	github.com/clue-ai/Cha…
ChatGLM	清华大学发布。ChatGLM版本多，效果好，可以在自己电脑上运行，因此十分受欢迎。十分值得大家尝试！中英双语。另，推荐了解GLM，chatGLM的基座，yangzhilin（XLNet作者）参与的工作arxiv.org/abs/2103.10…	github.com/THUDM/ChatG…
OPT	MetaAI 发布，175B模型，模型结构与GPT-3基本一致，推荐了解，可以帮助理解GPT-3。单语言。	github.com/facebookres…
Bloom	多语言， Bigscience发布，与GPT-3基本一致，全部开源，训练框架使用Megatron-DeepSpeed，效果也很好，推荐了解和试用	github.com/huggingface…
LamDA	137B参数，google发布。decoder-only，理论上与chatGPT架构相似。	github.com/conceptofmi…
LLaMA	LLaMA是著名的MetaAI开源的大语言预训练模型，也因为它的开源以及斯坦福发布的Alpaca工作，让LLaMA成为最近这些天发布的模型的基础（也就是说最近很多模型都是用LLaMA微调的）。而这个是Decapoda Research在HuggingFace上部署的。是将原始的预训练结果转换成与Transformers/HuggingFace兼容的文件。	github.com/juncongmoo/…
百度、阿里、讯飞等	当前国内的公司在不断的发展和推进，无论从使用上还是从底层技术上都推荐follow。

大语言模型发展历程 | BriefGPT – AI 论文速递

如何复现

既然在开头已经吐槽过，那么我们这里直接说复现思路——当一个强大的工程师，不需要思考，照着开源抄，就领先了99%的人。

从GPT已经公开的资料以及现有网上的开源信息来看，LM这个模型基底结构其实并不是最重要的，当前我们已经有的结构，只要包括了decoder，其实都可以做到文本生成，在很多细节上，也有多种优化点。但当前能让OpenAI破局的，核心是如何构建数据，如何收集数据，如何将这些数据用来做模型训练，才是关键和核心。这些是需要格外注意的。

From Scratch：从0开始，有两种思路

一种是基于GPT-2或者Bloom等GPT系列的LM，参考其发展路线，自行实现；
另一种则是基于当前已经摸索清楚路线，且开源的Moss、LLama等，依据实现。

听起来比较简单，需要重点解决的依然是上面提到过的一些要点：

数据：数据收集、数据清洗、数据标注等细节问题，包括成本与标准流程
老师（算法细节）决定上限：当前无开源模型解决GPT-4，且GPT4并非OpenAI内部最强的进展。这部分的差异需要自行推导摸索。LLM时代，暴力穷举可能性，大力出奇迹来追赶SOTA，特别算力受限，可能性不高。
工程：如何快速进行训练和推理，是一个好问题。
其他：很重要，但在解决上面的问题才会出现的，比如安全、评估、成本优化、效率等方面

From a strong baseline From scratch，讲的是技术路线甚至代码都已经ready，但是模型是需要自己重新训练的，里面会有很多细节操作。而从一个强有力的baseline开始，那么就是在一个已经有的模型的基础上进行改良。需要关注和解决的问题是：

同样，上面提到的几项也很关键，对每一项的理解都很重要，但对实现的全面性和细节都要求更低。
要往哪个方向fine-tining。
未开源部分依然需要自行摸索

好处是可以节约很多人力物力财力。

相信的力量

一些分享/讲座等，有说到想象力、愿力、心力，都差不多，我在之前的分析文章中也提到过OpenAI的成功在信念上的优势和坚定

OpenAI在GPT-2被退稿的时候依然能够坚持这个方向（其实GPT系列被退也没错，Roberta当年也没过，原因大差不差）就很不容易，更何况Bert系列在疯狂追赶。这个听起来有一些玄学，我理解本质是需要有灵魂人物来带领。

评估的重要性

前面我们讲到了评估，这一点很重要，直接决定了这些追赶和复现的团队是否有足够明晰的目标和标尺来衡量自己的工作进展，而这一点当前很困难。这也是一个在当前很有前景且很迫切的研究方向。

举个🌰例子

如果我们认为高考可以反映一切，那么高考分数高的，就应该在一切上表现更好。那么我们干什么都可以直接用高考分数来衡量了。

显然，已知用人单位会从多个角度来考虑，高考分数高，等于适应环境，可以吃高考的苦，有较好的学习理解能力，在大学受到了较好的培养。更进一步，会考虑到在哪个省份高考，从而更进一步考虑其综合能力，潜力，高考难度等……多种因素。所以说明高考分数只能反映一部分能力。

所以当模型仅被用于执行单一任务的时候，我们可以很容易出考题（benchmark）来评估其能力；
但当LLM成为一个综合模型，我们想要将其应用于多类型任务时候，就意味着需要进行多维度考察，所以就有了GLUE or CLUE，但当这个LLM要应用的任务类型越加多的时候，这个考察就变得复杂，且有一些能力不好简单设计任务来量化；
而当其成为一个对话应用的时候，那么我们更希望可以对其进行拟人化的考察，除了硬性能力，还希望可以check其是否更像人。

……所以就很麻烦。可以参见以下两份报道，UCB在引入Elo进行评估，爱丁堡大学的Fuyao在研究从推理上评价模型能力。

LLM带来的影响

LLM的出现，给产学界带来了冲击，此时思考它的出现到底带来了什么样的影响。由于每个人所处情况不同，我们可以从不同的视角来看待这个问题。

首先，得用，这样才能获取第一手感知；其次思考这个的出现给学术界带来了什么；接下来考虑它会对整个产学界带来什么影响；然后考虑给个人带来的影响；最后基于这些因素，考虑基于LLM的公司或者产品会是怎么样的。

如何使用模型

这里讲如何使用模型，核心是如何按照自己的想法激活其能力，这里就需要了解in-context learning，了解Pormpt。

In-Context Learning 是机器学习领域的一个概念，指不调整模型自身参数，而是在 Prompt 上下文中包含特定问题相关的信息，就可以赋予模型解决新问题能力的一种方式。这个主要是在few/one-shot的情况下，给定的示例。所以我认为叫做ICL不够贴切，应该叫做In Context Inference。

Prompt：Prompt（引导词），是一段自然语言描述的文本，它作为AI模型的重要输入来指导模型生成内容。Prompt的质量对于模型生成效果有较大影响。（本质上prompt和instruct是一种东西，一个概念，主要是看如何构造prompt）

有了这两个基础概念之后，我们就发现，其核心要做的是设计Prompt来让LLM（包括chatLLM）发挥出我们想要其发挥的能力。市场上有很多资料，同样我们抓主要矛盾：

一条prompt的组成要素：
Instruction：一个特定的任务或者指令
context：示例、上下文、甚至知识（库）
Input data：就是提问，比如搜索一些东西的时候，输入的问题（有时候和instruction重叠）
Output Indicator：输出格式
prompt的编写技巧：精准，正面输出信息，不要使用反问等手法；尝试使用COT-step by step
多轮prompt refine：这里要表达的是，基于第一次的prompt以及对应的结果，重新设计第二轮prompt，通过多轮refine来获取更加符合预期的结果
APE(Automatic Prompt Engineer)：自动prompt生成
注意：一条prompt在不同的LLM上的表现是可以不同的

推荐吴恩达的课程：www.deeplearning.ai/short-cours…

给学术界带来了什么

研究方向的变化：大模型LLM领域，有哪些可以作为学术研究方向? – 知乎
由于当前LLM对资金以及数据的诉求，大学这样的学术场所未来是否依然适合作为相关研究的孵化地，要打一个问号；是否工业实验室更适合。
LLM只是一个缩影，LLM可能会应用到很多领域；也可能会有很多与LLM类似的领域，或许未来这些都不适合在高校进行研究
给国内学术界：当新的技术爆发越来越多呈现在各个领域散点出现，如何给大众以良好的土壤并激发他们的创新热情将会是一个很值得研究的命题。

给整体的产学界/工业界带来了什么

简单来说，分为三大类影响：

从事LLM底层技术开发：需要快速follow技术，尽快建立生态，获取生态主导权的LLM将会建立壁垒
从事基于LLM的应用开发：理解业务，理解用户，并将这部分理解以及用户反馈数据用于对自己应用的优化，形成闭环飞轮（已有模糊技术路线但尚待验证），这将会是自己的壁垒
在这个环境下，“卖水卖铲子”的市场会异常活跃

在这个三类影响下，借助陆奇分享的ppt，用下图来看看全面形态。左下角就是LLM底层技术，在他的基础上无论是chatgpt还是相应的playground等，都属于应用，尽管有应用内应用（比如chatgpt-plugin），而在往上一层走，就到了copilot等产品层面。从这图上看，这个OpenAI的生态当前已经初步形成，也就是说它的竞争壁垒已经初步建立。如果说这真的是一个操作系统级别的革命的话，那么未来市场上一定只会存在有限家公司有各自的生态，比如苹果和安卓。

GPT-4到GPT-5：如何更好更快地学习和追赶LLM技术？
zhuanlan.zhihu.com/p/608047052

可以说，在新的时代下，公司之间竞争的依然是用户。LLM竞争开发者，应用竞争下游用户，卖水卖铲子的竞争前两个的淘金者。这些用户会产生数据，而如何将这些数据用在模型上，是一个依然值得研究的问题。结合LLM进行的服务，当前思路主要有两种：

一种是以LLM作为backbone，对其生产的结果进行后处理以确保符合预期；
一种是当前的主流系统作为backbone，利用LLM做优化（即将前者输出作为prompt构成）。

基于这样的两种思路，也就能看到，将数据融合进去的思路，要么融合到LLM中去，要么融合到确定性结果中去（知识库）。上面提到的第二种思路，就是深度学习当前挂靠到各个业务的方式。但若说LLM是一个操作系统级别的变化，以及更好的释放它的潜力，那一定不会止步于此，未来会是什么样子的呢？还需要思考

个人从业者的影响

对于个人来说，快速了解相关技术，建立自己的认知体系，加快对新知识的follow最关键
在这个基础上，选定自己的定位和角色，快速出击。明显看到生态壁垒、用户和业务壁垒依然可行，要快速找到建立的方向并贯彻执行。
需要有自己的思想体系，独到的认识，所以现在必须要能自己做科研，自己写代码，自己做平台和商业化

对传统的互联网技术同学来说，以下是可以参考的技术栈。对于非技术同学来说，则是要好好感受和使用大模型的能力。这是一个需要技术和非技术同学一起探索新需求和应用的时代，都需要对新的技术进行理解和把握，才能提出有价值的应用。

GPT-4到GPT-5：如何更好更快地学习和追赶LLM技术？

未来基于LLM的公司/产品会是什么样子的

GPT-4到GPT-5：如何更好更快地学习和追赶LLM技术？

上图是一个比较粗糙的示意图。在新的浪潮下，要找到自己的公司/产品的定位在哪里。从之前陆奇分享的OpenAI的生态中，我们可以看到很多东西，将其整合抽象简化，那么在当前的时代，我们的工作有上图中描述的：

APP：应用层。除了应用外，由于cGPT的出现，那么在UI上会有很大变化，除了语言外，要留意语音巨大的潜力
Inspire Ability：能力激发层。由于我们基于Maas进行上层开发设计，那么如何能够激发模型的能力，放大模型的能力（plugin），对模型能力进行补充（事实性等KB），则是这一层重点要做的工作
MaaS：除了模型本身能力的优化，训练/推理的速度和成本，上层开发者生态友好性等都是重点问题。简单的衡量标准，就是别人是否愿意在你的MaaS上进行后续开发
DATA层：这一层很关键，因为它关系到了能力是否可以长期迭代，某种意义上也是壁垒是否可以形成的关键要素。

应该关注的几个要点

如何理解推理能力

重点参考 or 复制：yaofu.notion.site/6dafe3f8d11… 本文是fuyao分享的关于复杂推理相关的分析，其认为这是GPT这样的LLM成为下一代计算平台 / 操作系统的关键能力。其中关于Code/Math等相关的分析特别有趣，推荐阅读。在科学文献/代码上进行训练可能会提高推理能力，这部分的讨论很有趣，也很符合直觉。

Lewkowycz et. al. 2022. Minerva: Solving Quantitative Reasoning Problems with Language Models
在来自 Arxiv 论文的 38.5B 的 token 上继续训练 PaLM 540B。
在 MATH （一个需要使用 LaTeX 格式回答问题的困难数据集），上的得分为 33.6（GPT-4 的得分是 42.5）
Taylor et. al. 2022. Galactica: A Large Language Model for Science
在包含论文、代码、参考资料、知识库和其他内容的 106B token 上预训练一个120B语言模型。
在MATH上的表现为 20.4（Minerva 33.6，GPT-4 42.5）
Chen et. al. 2021. Codex: Evaluating Large Language Models Trained on Code
在159GB代码数据上继续训练 12B GPT-3 模型，提高了 HumanEval 数据集上的代码性能。

LLM作为下一代操作系统是什么意思

首先，虽然炒的沸沸扬扬，如果真的类比操作系统，当前新的os的具体形态并不清晰，承载物究竟是什么样子，看起来在高速发展，但如果停滞不前的话（假设当前技术发展中遇到了不可预知的难题）也很难承载操作系统这样的重任。但是我们可以看到，在当前LLM远超过历史模型能力的加持下，在当前已经给交互带来事实性冲击的基础上，未来一定有大的变化。只是这个变化大概率还会有一次大的技术升级或者融合，毕竟GPT-4才刚发布，从这个角度看，已公开技术上还有肉眼可见的发展空间。最后，我们将其认定为操作系统，那么最后一定只有有限家，大家分别在不同领域各领风骚。走得早和走的好都很重要。

学习社区的紧迫性

当前以fuyao为代表的notion交互，国外流行的twitter交互，加剧了当前在专业领域内的小范围通过文本交互和讨论的氛围。
陆奇的每一次演讲都在疯狂更新资料，组建大模型日报团队专门分享日报以跟进前沿信息
各路大佬每隔一段时间就会出来一次，每天都有新的blog、新的论文、新的产品甚至公司出现
大家对学习社区的渴求程度，对沟通和思维碰撞的渴求越来越高；但由于个人的实际知识背景不同，导致同频讨论越发困难，如何能够有同时具备以下特点的学习社区，是一个很好的问题：
如何建立小型、敏捷的互动学习
大型、专业的分享社区

如何找到MaaS擅长的应用

GPT-4到GPT-5：如何更好更快地学习和追赶LLM技术？

以自然语言为先来设计产品。在新的时代，一定有其擅长的产品或者领域。上面讲到了基于LLM的公司/产品会对既有产品生态形成降维打击，那么如何才能找到擅长的部分呢？陆奇在5.7日北京的分享上给出了他的认识。

首先基于传统认识，应用一定是技术推动+需求拉动发展的，且要利用好大模型的优势。从三个维度分析，信息、模型以及行动。信息一定是基础，而模型（知识+思考整合+输出）影响越大的部分，大模型的优势就越明显。而行动，当前仅在数字化系统内部是ok的，譬如autoGPT。
第二点则是应用上的壁垒，要将对数据使用的结果能够反馈到使用的各个环节，才能够形成正向飞轮从而不断迭代优化
能够做到有多好，核心在于认知能力和对工具的使用能力。

OpenAI的发展历史

GPT-4到GPT-5：如何更好更快地学习和追赶LLM技术？

陆奇分享了自己的一个认识，OpenAI有自己的思想体系，所以现在必须要能自己做科研，自己写代码，自己做平台和商业化。卷吧～

商业化

本文没有讨论商业模式，这是一个很重要的点，在这个时代，谁先探索出合适的商业模式，就可以形成利润闭环，从而快速迭代自身业务。一些思考可以参见：

Take away

当前LLM进展迅速，首先搞清楚LLM是大预言模型，chatgpt是基于LLM做的一个应用导向的产品。抓住基础，然后follow sota，才能看懂听懂
搞清楚核心竞争力：
做LLM的：技术可以领先，但无法成为壁垒。但是生态可以成为壁垒，让用户靠你来养活自己。这是竞争的核心要素（注意卡脖子技术就可以成为壁垒）
做LLM上的应用：需要将用户数据和业务数据进行闭环，加速模型在业务上的表现，这个是存在壁垒的，如何可以很好的闭环，是一件值得研究的事情。
研究者：从业者和研究者。独到的见解（有点虚）。换句话说应该更加强调认知能力和执行力，对于很多知识的学习可以放下，工具性质的使用能力需要很强
由于数据的重要性，所以如何形成自己好的数据处理framework or pipeline是一个关键问题
AIOT未来一定有大机会，当信息获取与理解，模型思考与决策这样的能力都具备的时候，那么切入到实际的action中就显得十分重要而合理。
当前chatgpt的出现，其实很像一个咨询的角色，究竟是提升咨询的效率还是替换咨询的角色，是一个很好的问题。
人嘛，最重要的是开心

GPT-4到GPT-5：如何更好更快地学习和追赶LLM技术？

附录：

OpenAI系列

重点

【GPT-1】Improving Language Understanding by Generative Pre-Training. [pdf] 2018.6
【GPT-2】Language Models are Unsupervised Multitask Learners. [pdf] 2019.2
【GPT-3】Language Models are Few-Shot Learners. [pdf] 2020.5
【CodeX】Evaluating Large Language Models Trained on Code [pdf] 2021.7
【WebGPT】WebGPT: Browser-assisted question-answering with human feedback. [pdf] 2021.11
【InstructGPT】Training language models to follow instructions with human feedback. [pdf] 2022.3
【ChatGPT】 blog: openai.com/blog/chatgp… 2022.11.30
【GPT-4】arxiv.org/pdf/2303.08… 2023.3R
【RLHF】Augmenting Reinforcement Learning with Human Feedback. [pdf] 2011.7
【PPO】Proximal Policy Optimization Algorithms. [pdf] 2017.7

其他可关注论文

Fine-tuning language models from human preferences. [pdf][code] 2019.9
Learning to summarize from human feedback. [pdf] [code] 2020.9
Text and Code Embeddings by Contrastive Pre-Training [pdf] 2022.1
Efficient Training of Language Models to Fill in the Middle [pdf] 2022.7
Training Verifiers to Solve Math Word Problems [pdf] 2021.10
Recursively Summarizing Books with Human Feedback [pdf] 2021.9
Generating Long Sequences with Sparse Transformers [pdf] 2019.4

可关注工作

GPT-3: Its Nature, Scope, Limits, and Consequences link.springer.com/article/10.…
Understanding the Capabilities, Limitations, and Societal Impact of Large Language Models [pdf] 2021.2
Generative Language Modeling for Automated Theorem Proving [pdf] 2020.9
Process for Adapting Language Models to Society (PALMS) with Values-Targeted Datasets [pdf] 2022.6
Scaling Laws for Neural Language Models [pdf]2020.1
ChatGPT is not all you need. A State of the Art Review of large Generative AI models arxiv.org/abs/2301.04… 【说你行很麻烦，不行却很容易】
In context learning survey [pdf] 2022.11
Reasoning with Language Model Prompting- A Survey arxiv.org/abs/2212.09…

竟对模型：介绍了其他流行的语言模型，如 BERT、XLNet、RoBERTa、ELECTRA、Sparrow等

BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding
【LaMda】 LaMDA: Language Models for Dialog Applications. [pdf] 2022.1
【Sparrow】 Improving alignment of dialogue agents via targeted human judgements. [pdf] 2022.9
【T5】Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer arxiv.org/pdf/1910.10…
DeepSpeed-Chat. Blog
GPT4All. Repo
OpenAssitant. Repo
ChatGLM. Repo
MOSS. Repo
Lamini. Repo/Blog
Finetuned language models are zero-shot learners [pdf] 2021.9
Scaling Instruction-Finetuned Language Models. [pdf] 2022.10
XLNet: Generalized Autoregressive Pretraining for Language Understanding
RoBERTa: A Robustly Optimized BERT Pretraining Approach
ALBERT: A Lite BERT for Self-supervised Learning of Language Representations
Longformer: The Long-Document Transformer
ELECTRA: Pre-training Text Encoders as Discriminators Rather Than Generators
Reformer: The Efficient Transformer
Attention Is All You Need： Transformer (Google AI blog post)
Music Transformer: Generating music with long-term structure
blog.google/technology/…
Chain-of-Thought Prompting Elicits Reasoning in Large Language Models
PaLM: Scaling Language Modeling with Pathways
OPT: Open Pre-trained Transformer Language Models
BLOOM: A 176B-Parameter Open-Access Multilingual Language Model
The Flan Collection: Designing Data and Methods for Effective Instruction Tuning
LaMDA “LaMDA: Language Models for Dialog Applications”. 2021. Paper
LLaMA “LLaMA: Open and Efficient Foundation Language Models”. 2023. Paper
GPT-4 “GPT-4 Technical Report”. 2023. Paper
BloombergGPT BloombergGPT: A Large Language Model for Finance, 2023, Paper
GPT-NeoX-20B: “GPT-NeoX-20B: An Open-Source Autoregressive Language Model”. 2022. Paper

参考

陆奇北京演讲：陆奇最新演讲《新范式新时代新机会》完整PPT.pdf
上述Paper

本网站的内容主要来自互联网上的各种资源，仅供参考和信息分享之用，不代表本网站拥有相关版权或知识产权。如您认为内容侵犯您的权益，请联系我们，我们将尽快采取行动，包括删除或更正。

{{userData.name}}已认证

GPT-4到GPT-5：如何更好更快地学习和追赶LLM技术？

前言