ChatGPT进化关系与大模型选取

释放双眼，带上耳机，听听看~！

本文介绍了ChatGPT及其进化过程，以及选取基座大模型的方法，适合对大模型和ChatGPT感兴趣的人阅读。

引言

最近，各类大模型(简称LLM)如雨后春笋，应接不暇，于是“狠心”整理了这些模型的进化关系，以飨读者。

(1) ChatGPT三步走

先回顾下ChatGPT训练方法。

2022年12月5日，OpenAI推出ChatGPT，在强大的GPT-3.5大模型基础上，引入人工数据标注和强化学习（RLHF），不断微调（finetune）训练而来。

其中，GPT-3.5指当时的InstructGPT，仅有一篇论文简单介绍训练流程。而ChatGPT发布时，信息更少，没有论文，只在官网简单贴了个与Instruct GPT高度相似的流程图，区别是：

标注人员、动物换了个logo，如青蛙→水獭。
增加PPO模型初始化注解

模型	训练过程
GPT 3.5 InstructGPT
ChatGPT

既然如此，老老实实从InstructGPT论文里梳理“三步走”：

（1）SFT ：监督指令微调，从5.4w人工标注的指令集中抽取1.3w，在GPT-3大模型上微调。
（2）RM：基于新模型生成一批数据集<prompt,response>，重组成3.3w排序对形式，人工标注后，用于训练奖励模型。奖励模型结构同基座LLM，论文里全部用6B级别，规模大了反而不好。
（3）PPO：RLHF的具体实现，RM奖励模型作为critic（评论家），SFT阶段的大模型作为actor（行动家），二者相互配合，actor学习指令集，critic评估打分，再更新权重，进入下一轮。论文里对比两种损失函数，后采用混合预训练损失PPT_ptx，兼顾预训练的效果。

ChatGPT进化关系与大模型选取

(2) ChatGPT复现思路

从大模型（1750亿级别）入手，收集领域指令集，fine-tune（精调），植入RLHF、CoT、ICL等技术，试图趋近ChatGPT效果。

这条路因为路线清晰，目标明确，风险较小(只要速度够快)，选手众多，如火如荼：

GPT-3和InstructGPT（3.5系列）没开源——没关系，找GPT类似结构的大模型作为基座。
OpenAI用了海量训练数据——用已有大模型（1750亿级别）冷启动
OpenAI用了指令微调、强化学习——改代码，植入进去，已有ChatGPT开源实现（如Colossial AI/DeepSpeed/Openassistant/Trlx等）
OpenAI用了大量算力——结合自身业务，做领域微调、裁剪。

更多见文章：漫谈Prompt（提示工程）与CoT（思维链）

总结起来，垂类大模型落地步骤，如图所示

① 选择合适的基座LLM，并根据自身条件选择对应规模
② 准备领域语料集、指令集（如调ChatGPT）
③ 执行第一步SFT，简单微调LLM
④ 评估更新后的LLM效果，可借用业界自动评估工具或人工抽样评估
⑤ 效果还不达标？两条路：扩大基座模型规模、继续走第二三步
⑥ 奖励模型（Reward Model）训练：需要提前人工评估或用自动化方案代替（还是ChatGPT）
⑦ 强化学习训练：PPO、PPO_ptx

ChatGPT进化关系与大模型选取

图里的信息截止2023年3月，原图见博客

（3）如何选取基座模型

有论文（The Practical Guides for Large Language Models）按照模型结构整理了大模型的进化树

Encoder-Only结构：BERT系列
Decoder-Only结构：GPT系列，成员最多
Encoder-Decoder结构：BART、T5、GLM

ChatGPT进化关系与大模型选取

图源

其中开源模型尤为“耀眼”，拿来就用。

GPT-2：完全开源，适合自己升级架构到GPT-3，并加上RLHF流程，照着OpenAI趟出来的路再走一遍。
BLOOM：完全开源，2022年7月，法国BigScience开源的GPT-3级别LLM，176b，覆盖46种语言和13种编程语言，中文语料占比高达16%，仅次于英文的30%
OPT：2022年5月，META AI开源，175b。英文为主，中文不佳。只能科研，不能商用。
LLaMA：2023年2月25日，META基于OPT微调出一个用于聊天的大模型，7b~65b, 依旧英文为主，非商用，
GPT-Neo、GPT-J和GPT-NeoX：开源，英语为主。源自一个富有极客反叛精神的全球开源组织 EleutherAI，既然OpenAI colsed了，为地主独占，那就揭竿而起，自己做真正的开源。
GLM：清华发布，亚洲唯一上榜的175b级别LLM，中文版的ChatGLM商用受限。

LLM看着很多，但完全开源的屈指可数，这让准备商用的研发人员头疼不已。

（4）LLM进化图谱

面对OpenAI的closed趋势及商业巨头的垄断，全球各地都在想办法做真正的开源大模型。

国外有MTEA、HuggingFace、BigSicence、EleutherAI，国内有清华系以及Open开头的组织（如OpenBMB和OpenBuddy），还有个人。

供求严重失衡情况下，只要出现半开源的LLM，大家都会“哄抢”。

2023年3月，META半开源的LLaMA模型被人“泄露”，接着迅速“进化”，每隔几天就会出现一个新“物种”，短短几个月，已经演化成全球最大的开源LLM生态系统。

2023年5月6日，一篇文章广为流传：

谷歌内部文件泄露：我们和OpenAI都没有护城河

主要观点：

Google 和 OpenAI 都不会获得竞争的胜利，胜利者会是开源 AI；
开源 AI 用极低成本的高速迭代，已经赶上了 ChatGPT 的实力；
数据质量远比数据数量重要；
与开源 AI 竞争的结果，必然是失败；
比起开源社区需要 Google，Google 更需要开源社区。

既然开源才是出路，那么如今的开源格局是什么样？

不识庐山真面目，只缘身在此山中。

我花了不少时间，整理一张图，涵盖各方进展，LLM之间的盘根错节，让大家看到更大的视野。

图分4块：

① 国外基座LLM: 介绍国外可用的开源基座模型
② LLaMA生态系统：各方对LLaMA的魔改
③ 国内开源LLM：清华ChatGLM及其他开源LLM
④ LLM训练框架：训练加速技巧、训练框架

ChatGPT进化关系与大模型选取

注：以上信息不全，仅供参考，欢迎反馈。

① 国外基座大模型

ChatGPT进化关系与大模型选取

OpenAI官方模型里，除了GPT-2可用，其它模型（ChatGPT/GPT-4）只能远观，并作为大模型竞赛里的标杆供人膜拜、瞻仰、跟随。

多数人连api调用权限都没有，更不用说理论方法、权重、数据和代码了。

极客组织EleutherAI成立没多久，就先后推出GPT-Neo、GPT-J和GPT-NeoX模型，开源数据集 Pile，并发布OpenChatKit，颇有开源霸主风范。Pythia是耶鲁大学与EleutherAI合作的产物，Dolly（多莉）是DataBrick基于Pythia发布的聊天LLM。

法国科研组织发布的BLOOM很实用: 176b, 多语言,免费商用，属于非英语国家LLM开发者的首选。2023年2月底推出指令微调版本BLLOMZ。

合作推出BLOOM的著名LLM平台HuggingFace也没闲着，推出了自己的聊天LLM：HuggingChat

类似的开源组织，还有Stable AI，推出Stable LM。

阿联酋TII机构发布的Falcon（猎鹰）一度霸占了测评榜单，拔得头筹。当然评测存在疑点。国内机构闻风而动，6月9日，OpenBuddy将其汉化，并集成AI画图，6月14日，深圳大学Linly（伶荔）团队扩充中文词表。

② LLaMA生态系统

自从权重泄露以来，不到一个月，一系列改进版“涌现”：指令调整、量化、质量改进、人类评估、多模态和 RLHF 等等变体。每个版本间隔才几天时间，进化速度如此之快。

ChatGPT进化关系与大模型选取

“羊驼”家族进化详情

3月14日，斯坦福基于self-instruct指令集完成SFT
3月21日，斯坦福借助LoRA技术，进一步降低了训练成本；5月26日，LoRA进化版本QLoRA出现，单机训练继续减量、加速
3月23日，第一个免GPU版本的羊驼诞生，直接CPU单机部署，4月12日，GPT4All可以额在笔记本部署
3月31日，伯克利引入更多数据，开源FastChat，并推出评测榜 LMSYS
4月12日，引入CoT数据，提升推理能力
羊驼汉化上，先后出现骆驼、Linly-ChatFlow、ChatLLaMA和玉兰
5月3日，第一个可商用的LLaMA出现，OpenLLaMA
META自己也在研究RLHF的必要性，推出LIMA

③ 国内开源大模型

ChatGPT进化关系与大模型选取

国内LLM

2月20日，复旦第一个尝鲜，推出MOSS
随后，诞生一批ChatGPT跟随者，文心一言、科大讯飞、通义千问等
详见评测：千模大赛哪家强？大语言模型中文评测实践

开源LLM上

坐拥亚洲唯一上榜LLM（GLM）的清华优势很大，先后推出ChatGLM、ChatGLM-6B以及多模态版本Visual-GLM。
然而，这些模型商用受限，于是清华NLP实验室背景的面壁智能推出CPM系列，从ant到bee、Luca，功能覆盖画图、插件、联网、应用市场，颇有OpenAI的影子，重要的是，这些完全开源。
校企合作是个好路子，一个有底子有人，一个有钱有数据。4月13日推出的知乎“知海图”基于CPM，5月23日推出的“360智脑”基于ChatGLM。
另外，也有不少自力更生的。智源社区推出“天鹰”，王小川的百川智能，中科院的“紫东太初”（不开源），纯RNN的ChatRWKV。

④ 训练技巧及框架

训练技巧上，LoRA系列名声最大，其次是量化、蒸馏、联邦学习。

LoRA低秩适配，QLoRA将量化引入进来。
目前，LoRA系列已经成为语言、图像等领域的标配
5月15日，康奈尔将量化（GPTQ）引入微调框架
5月31日，港科大发布闭源模型的蒸馏框架（LION, AKD）
6月6日，FATE社区发布联邦学习大模型，解决隐私、数据不足问题

训练框架上

Colossal AI起步较早，2月15日就发布三步流程框架（当时没有SFT，后面补齐）
开源框架还有：Open Assistant、Trlx等
微软的DeepSpeed范围最广，4月12日，还推出覆盖三步流程的DeepSpeed Chat
各方还在研究三步走的合理性，有没有更好的方案。如:港科大发布训练框架LLMFlow，北大河狸改进RLHF，使用更好的SafeRLHF。

详情

(5) 后记

开源大模型很多很全，迭代速度太快，只要1天不看资讯，就会漏掉最新进展。

这对大模型从业者来说，挑战极大。

ChatGPT复现专题文章才开始，不确定能否如期写完。

个人能力、精力有限，欢迎大家查缺补漏，

附

公众号版本
技术博客

本网站的内容主要来自互联网上的各种资源，仅供参考和信息分享之用，不代表本网站拥有相关版权或知识产权。如您认为内容侵犯您的权益，请联系我们，我们将尽快采取行动，包括删除或更正。

{{userData.name}}已认证

ChatGPT进化关系与大模型选取

(1) ChatGPT三步走

(2) ChatGPT复现思路

（4）LLM进化图谱

(5) 后记

中文公司名称分词工具详细解析

Copilot源码详细分析

GeoSpy.ai

Globe Explorer

即梦Dreamina

Luma Dream Machine

Motionshop

StoryDiffusion

归档

{{userData.name}}已认证

(1) ChatGPT三步走

(2) ChatGPT复现思路

（4）LLM进化图谱

(5) 后记

中文公司名称分词工具详细解析

Copilot源码详细分析

如何使用提示词工程帮助ChatGPT提高回答质量

大模型：人工智能时代的新风口

大模型参数高效微调技术实战（一）-PEFT概述及环境搭建

ChatGPT领域专家训练方法详解