探索羊驼系列大模型及其变种

释放双眼,带上耳机,听听看~!
了解羊驼模型及其系列的特点和变种,探索大型AI模型的发展和应用领域。

欢迎关注我的公众号 [极智视界],获取我的更多经验分享

大家好,我是极智视界,本文来介绍一下 有趣的羊驼系列大模型。

邀您加入我的知识星球「极智视界」,星球内有超多好玩的项目实战源码下载,链接:t.zsxq.com/0aiNxERDq

“羊驼模型” 在大模型的介绍中应该是经常会听到的,另外 LLaMA 也是经常会听到的,但是你可能不知道,所谓的 “羊驼模型” 其实就是指 LLaMa,而所谓的 “羊驼系列” 指的就是基于 LLaMA 的变体。而这并不是有什么特殊的原因,比如模型结构类似羊驼等,而是 LLaMA 直接翻译就是 “羊驼”、”美洲驼” 的意思,如下,

探索羊驼系列大模型及其变种

而在咱们中文里,也就是 “草泥马”,如下,

探索羊驼系列大模型及其变种

到目前为止,其实大模型基本形成了两个派系,一个是以 OpenAI GPT 为代表的闭源派系,另一个是以 LLaMA 羊驼衍生的羊驼系列开源派系。这很像手机操作系统里面的 苹果IOS 和 安卓,

  • OpenAI GPT -> IOS -> 闭源;
  • 羊驼 -> 安卓 -> 开源;

这样一来,在咱们国内的 “百模大战” 中,其实大部分的模型都是基于 LLaMA 的魔改,也就是大部分都是羊驼系列,比如鼎鼎有名的百川大模型,哈工大的华佗大模型等。所以,要说到羊驼系列模型的共性,其实都是基于羊驼模型的鼻祖 LLaMA 的套壳。首先先来看 LLaMA 的特点,LLaMA 说到底还是经典的一个词一个词往外蹦的模型,就是用前面的词预测下面的词,这个结构跟 GPT 是一致的。而且,像 LLaMA 这种大部分的大模型都会是以 Transformer 结构为基础架构的,所以这里拿 LLaMA 和 原生Transformer 模型结构做个对比:

探索羊驼系列大模型及其变种

LLaMA 是 Meta 在今年 (2023年) 发布的基础 LLM 大模型,这个模型有四个版本,分别是 7B、13B、33B、65B (这样如果你后面看到哪些国产大模型差不多有这几个规格的,基本都是 LLaMA 的套壳模型)。其中 LLaMA 中的位置编码用的是旋转自编码 (RoPE),其实是一种典型的相对位置编码。相比之前的大模型,或者直接点,相比于 OpenAI 的 GPT,LLaMA 完全是在公共的开源预训练数据集上训练的。而且推理效率也是 LLaMA 的一个亮点,它可以在单卡 V100 上完成推理,这个相当有意义,这可以让大模型平民化,让大家都玩得起 (当然,这个是指推理,如果 LLaMA 训练的话,65B 模型的全量训练需要使用 2048 块 A100 80G 的显卡,训练 21 天左右,成本还是相当高的,当然要是微调的话不需要这么高成本)。LLaMA 的数据集分布如下,总共差不多 5T 的样子,这些都是公共开源的数据集。但比较遗憾的是,LLaMA 数据集大部分还是英文数据、西班牙数据等,所以对于中文的直接泛化能力并不是太好。

探索羊驼系列大模型及其变种

下面介绍一些 LLaMA 的变种,也就是所谓的羊驼系列。

比如 Chinese-LLaMA-Alpaca。前面说到,LLaMA 的训练数据集中缺少中文数据集,一到国内,首先要提升的就是中文能力。所以各种 Chinese 版本的 LLaMA 接踵而至,这里的 Chinese-LLaMA-Alpaca 就是比较有代表性的。下图展示了 Chinese-LLaMA-Alpaca 的进化史,可以看到都是基于 LLaMA (以及后来的 LLaMA-2) 的衍生。

探索羊驼系列大模型及其变种

另外比较有意思的是,Alpaca 也是羊驼的意思 (这个变种真是变得太彻底了…)

探索羊驼系列大模型及其变种

上面的 Chinese-Alpaca 其实是中文版的 Alpaca,而 Alpaca 是斯坦福从 Meta LLaMA 7B 模型微调而来的全新套壳模型,而且仅使用了 52k 的训练数据,性能就达到了差不多 GPT-3.5 的水平。相比于 LLaMA 训练的高成本,Alpaca 的训练成本骤降,来说说是怎么回事。Alpaca 是使用 HuggingFace 上的 LLaMA 预训练框架,利用全共享训练数据进行并行和混合精度训练。最后是在 8 张 80G A100 上,用时 3 个小时 finetune 一个 7B LLaMA 模型得到。这样的一个训练过程,成本不到 100 美元。然后考虑 finetune 其实是需要用到自己的领域数据,Alpaca 的做法是使用 OpenAI 的 API 来生成训练数据,具体是用 ChatGPT 进行一问一答,ChatGPT 的回答作为标注数据,这样就得到了 finetune 的训练数据集。Alpaca 的 finetune 数据集制作成本差不多是 500 美元,这样整个 Alpaca 的训练成本还不到 600 美元。对比 LLaMA 的全量训练成本,真是一个天一个地。

然后继 Alpaca 之后,UC、CMU、斯坦福等机构的学者联合发布了开源 LLM 大模型 Vicuna,包含 7B 和 13B 参数。一看这两个规格,瞬间就来感觉了,想想这大概率也是 LLaMA 套壳。翻译一下 Vicuna,小羊驼….惊了,真的要被玩坏了…

探索羊驼系列大模型及其变种
探索羊驼系列大模型及其变种

Vicuna 相比于前面的 Alpaca,在多轮对话和长序列方面做了改进,收集了约 7万个对话,并增强了 Alpaca 提供的训练脚本,而且训练开销也和 Alpaca 类似,是可以在一天内通过 8 卡的 A100 配合 Pytorch FSDP 做 full fine-tune 得到。Vicuna 还有点创新的地方是通过 GPT-4 来评估结果 (想想前面的 Alpaca 是使用 GPT-3.5 来标注数据,而这里的 Vicuna 是使用 GPT-4 来做模型评估)。其实会发现,现在挺多做大模型,都会依赖于一个更加强的大模型,用魔法来打败魔法。

上面介绍了两个羊驼变种,大致的规律就是 LLaMA 是做全量训练的,而 Alpaca 和 Vicuna 都是基于 LLaMA 的微调,只是各自的微调方法不一样。

到咱们国内,除了最开始介绍的 Chinese-LLaMA-Alpaca 之外,还有几个比较有代表性的羊驼变种。比如哈工大的医疗领域大模型 华驼,不得不感叹这名字取得秒呀。华驼也是基于 LLaMA 的模型,使用中文生物医疗领域 8000 多个问答指令数据作为监督微调而来。而这 8000 多个微调数据,是从知识图谱中抽样知识实例,然后利用 OpenAI API 基于特定的知识生成问答实例而得到。

探索羊驼系列大模型及其变种

另外还有百川大模型,这个号称自主研发的大模型其实也是 LLaMA 套壳,不多说了。

基于 LLaMA 的变种如火如荼,而基座 LLaMA 也没有闲着,在今年的 7 月份,LLaMA-2 来了。来看 LLaMA-2 相对于 LLaMA 的提升,如 Context长度、Tokens 基本都做了翻倍,所以 LLaMA-2 可以理解和生成更长的文本。

探索羊驼系列大模型及其变种

既然羊驼底座升级了,那么 诸驼-Plus 也都会接踵而至。

好了,以上分享了 有趣的羊驼系列大模型,希望我的分享能对你的学习有一点帮助。

 【公众号传送】

《极智AI | 有趣的羊驼系列大模型》

畅享人工智能的科技魅力,让好玩的AI项目不难玩。邀请您加入我的知识星球, 星球内我精心整备了大量好玩的AI项目,皆以工程源码形式开放使用,涵盖人脸、检测、分割、多模态、AIGC、自动驾驶、工业等。不敢说会对你学习有所帮助,但一定非常好玩,并持续更新更加有趣的项目。 t.zsxq.com/0aiNxERDq

探索羊驼系列大模型及其变种

本网站的内容主要来自互联网上的各种资源,仅供参考和信息分享之用,不代表本网站拥有相关版权或知识产权。如您认为内容侵犯您的权益,请联系我们,我们将尽快采取行动,包括删除或更正。
AI教程

InfiniBand网络技术的发展历程与架构解析

2023-11-23 16:44:14

AI教程

AI语音合成引擎发布与比赛结果公布

2023-11-23 16:56:55

个人中心
购物车
优惠劵
今日签到
有新私信 私信列表
搜索