探索羊驼系列大模型及其变种

释放双眼，带上耳机，听听看~！

了解羊驼模型及其系列的特点和变种，探索大型AI模型的发展和应用领域。

欢迎关注我的公众号 [极智视界]，获取我的更多经验分享

大家好，我是极智视界，本文来介绍一下有趣的羊驼系列大模型。

邀您加入我的知识星球「极智视界」，星球内有超多好玩的项目实战源码下载，链接：t.zsxq.com/0aiNxERDq

“羊驼模型” 在大模型的介绍中应该是经常会听到的，另外 LLaMA 也是经常会听到的，但是你可能不知道，所谓的 “羊驼模型” 其实就是指 LLaMa，而所谓的 “羊驼系列” 指的就是基于 LLaMA 的变体。而这并不是有什么特殊的原因，比如模型结构类似羊驼等，而是 LLaMA 直接翻译就是 “羊驼”、”美洲驼” 的意思，如下，

探索羊驼系列大模型及其变种

而在咱们中文里，也就是 “草泥马”，如下，

探索羊驼系列大模型及其变种

到目前为止，其实大模型基本形成了两个派系，一个是以 OpenAI GPT 为代表的闭源派系，另一个是以 LLaMA 羊驼衍生的羊驼系列开源派系。这很像手机操作系统里面的苹果IOS 和安卓，

OpenAI GPT -> IOS -> 闭源；
羊驼 -> 安卓 -> 开源；

这样一来，在咱们国内的 “百模大战” 中，其实大部分的模型都是基于 LLaMA 的魔改，也就是大部分都是羊驼系列，比如鼎鼎有名的百川大模型，哈工大的华佗大模型等。所以，要说到羊驼系列模型的共性，其实都是基于羊驼模型的鼻祖 LLaMA 的套壳。首先先来看 LLaMA 的特点，LLaMA 说到底还是经典的一个词一个词往外蹦的模型，就是用前面的词预测下面的词，这个结构跟 GPT 是一致的。而且，像 LLaMA 这种大部分的大模型都会是以 Transformer 结构为基础架构的，所以这里拿 LLaMA 和原生Transformer 模型结构做个对比：

探索羊驼系列大模型及其变种

LLaMA 是 Meta 在今年 (2023年) 发布的基础 LLM 大模型，这个模型有四个版本，分别是 7B、13B、33B、65B (这样如果你后面看到哪些国产大模型差不多有这几个规格的，基本都是 LLaMA 的套壳模型)。其中 LLaMA 中的位置编码用的是旋转自编码 (RoPE)，其实是一种典型的相对位置编码。相比之前的大模型，或者直接点，相比于 OpenAI 的 GPT，LLaMA 完全是在公共的开源预训练数据集上训练的。而且推理效率也是 LLaMA 的一个亮点，它可以在单卡 V100 上完成推理，这个相当有意义，这可以让大模型平民化，让大家都玩得起 (当然，这个是指推理，如果 LLaMA 训练的话，65B 模型的全量训练需要使用 2048 块 A100 80G 的显卡，训练 21 天左右，成本还是相当高的，当然要是微调的话不需要这么高成本)。LLaMA 的数据集分布如下，总共差不多 5T 的样子，这些都是公共开源的数据集。但比较遗憾的是，LLaMA 数据集大部分还是英文数据、西班牙数据等，所以对于中文的直接泛化能力并不是太好。

探索羊驼系列大模型及其变种

下面介绍一些 LLaMA 的变种，也就是所谓的羊驼系列。

比如 Chinese-LLaMA-Alpaca。前面说到，LLaMA 的训练数据集中缺少中文数据集，一到国内，首先要提升的就是中文能力。所以各种 Chinese 版本的 LLaMA 接踵而至，这里的 Chinese-LLaMA-Alpaca 就是比较有代表性的。下图展示了 Chinese-LLaMA-Alpaca 的进化史，可以看到都是基于 LLaMA (以及后来的 LLaMA-2) 的衍生。

探索羊驼系列大模型及其变种

另外比较有意思的是，Alpaca 也是羊驼的意思 (这个变种真是变得太彻底了…)

探索羊驼系列大模型及其变种

上面的 Chinese-Alpaca 其实是中文版的 Alpaca，而 Alpaca 是斯坦福从 Meta LLaMA 7B 模型微调而来的全新套壳模型，而且仅使用了 52k 的训练数据，性能就达到了差不多 GPT-3.5 的水平。相比于 LLaMA 训练的高成本，Alpaca 的训练成本骤降，来说说是怎么回事。Alpaca 是使用 HuggingFace 上的 LLaMA 预训练框架，利用全共享训练数据进行并行和混合精度训练。最后是在 8 张 80G A100 上，用时 3 个小时 finetune 一个 7B LLaMA 模型得到。这样的一个训练过程，成本不到 100 美元。然后考虑 finetune 其实是需要用到自己的领域数据，Alpaca 的做法是使用 OpenAI 的 API 来生成训练数据，具体是用 ChatGPT 进行一问一答，ChatGPT 的回答作为标注数据，这样就得到了 finetune 的训练数据集。Alpaca 的 finetune 数据集制作成本差不多是 500 美元，这样整个 Alpaca 的训练成本还不到 600 美元。对比 LLaMA 的全量训练成本，真是一个天一个地。

然后继 Alpaca 之后，UC、CMU、斯坦福等机构的学者联合发布了开源 LLM 大模型 Vicuna，包含 7B 和 13B 参数。一看这两个规格，瞬间就来感觉了，想想这大概率也是 LLaMA 套壳。翻译一下 Vicuna，小羊驼….惊了，真的要被玩坏了…

探索羊驼系列大模型及其变种

Vicuna 相比于前面的 Alpaca，在多轮对话和长序列方面做了改进，收集了约 7万个对话，并增强了 Alpaca 提供的训练脚本，而且训练开销也和 Alpaca 类似，是可以在一天内通过 8 卡的 A100 配合 Pytorch FSDP 做 full fine-tune 得到。Vicuna 还有点创新的地方是通过 GPT-4 来评估结果 (想想前面的 Alpaca 是使用 GPT-3.5 来标注数据，而这里的 Vicuna 是使用 GPT-4 来做模型评估)。其实会发现，现在挺多做大模型，都会依赖于一个更加强的大模型，用魔法来打败魔法。

上面介绍了两个羊驼变种，大致的规律就是 LLaMA 是做全量训练的，而 Alpaca 和 Vicuna 都是基于 LLaMA 的微调，只是各自的微调方法不一样。

到咱们国内，除了最开始介绍的 Chinese-LLaMA-Alpaca 之外，还有几个比较有代表性的羊驼变种。比如哈工大的医疗领域大模型华驼，不得不感叹这名字取得秒呀。华驼也是基于 LLaMA 的模型，使用中文生物医疗领域 8000 多个问答指令数据作为监督微调而来。而这 8000 多个微调数据，是从知识图谱中抽样知识实例，然后利用 OpenAI API 基于特定的知识生成问答实例而得到。

探索羊驼系列大模型及其变种

另外还有百川大模型，这个号称自主研发的大模型其实也是 LLaMA 套壳，不多说了。

基于 LLaMA 的变种如火如荼，而基座 LLaMA 也没有闲着，在今年的 7 月份，LLaMA-2 来了。来看 LLaMA-2 相对于 LLaMA 的提升，如 Context长度、Tokens 基本都做了翻倍，所以 LLaMA-2 可以理解和生成更长的文本。

探索羊驼系列大模型及其变种

既然羊驼底座升级了，那么诸驼-Plus 也都会接踵而至。

好了，以上分享了有趣的羊驼系列大模型，希望我的分享能对你的学习有一点帮助。

【公众号传送】

《极智AI | 有趣的羊驼系列大模型》

畅享人工智能的科技魅力，让好玩的AI项目不难玩。邀请您加入我的知识星球， 星球内我精心整备了大量好玩的AI项目，皆以工程源码形式开放使用，涵盖人脸、检测、分割、多模态、AIGC、自动驾驶、工业等。不敢说会对你学习有所帮助，但一定非常好玩，并持续更新更加有趣的项目。 t.zsxq.com/0aiNxERDq

探索羊驼系列大模型及其变种

本网站的内容主要来自互联网上的各种资源，仅供参考和信息分享之用，不代表本网站拥有相关版权或知识产权。如您认为内容侵犯您的权益，请联系我们，我们将尽快采取行动，包括删除或更正。

{{userData.name}}已认证

探索羊驼系列大模型及其变种

InfiniBand网络技术的发展历程与架构解析

AI语音合成引擎发布与比赛结果公布

GeoSpy.ai

Globe Explorer

即梦Dreamina

Luma Dream Machine

Motionshop

StoryDiffusion

归档

{{userData.name}}已认证

InfiniBand网络技术的发展历程与架构解析

AI语音合成引擎发布与比赛结果公布

昆仑万维开源「天工」13B系列大模型，助力AI生态发展

AI技术突破：生产力大爆发

智能文档问答系统：大模型在AI时代的落地方案

讯飞星火大模型，全场景开放，助力程序员提升工作效率