当前位置:首页> AI资讯> Intel新AI方法:CPU上高效部署LLM

Intel新AI方法:CPU上高效部署LLM

释放双眼,带上耳机,听听看~!
Intel研究人员提出了一种新的AI方法,可以在CPU上高效部署LLM,降低推断成本,提高模型性能。

**划重点:**

– 🌐 大型语言模型(LLM)因在文本生成、语言理解和文本摘要等任务中的卓越表现而备受欢迎,但其庞大的模型参数却需要大量内存和专用硬件。

– 🧮 为了降低推断所需的计算功率,Intel的研究人员提出了一种有效的方法,支持自动的INT-4权重量化流程,可以在CPU上高效部署LLM。

– ⚙️ 他们还设计了一个特定的LLM运行时,具有高度优化的内核,加速CPU上的推断过程。

AICMTY(aicmty.com) 11月10日 消息:大型语言模型(LLM)因其在文本生成、语言理解和文本摘要等各种任务中的卓越性能而备受瞩目,但它们庞大的模型参数却需要大量内存和专用硬件,这使得部署这些模型变得相当具有挑战性。

为了降低推断所需的计算功率,研究人员通常采用权重量化等方法,即减少人工神经网络的权重和激活函数的精度。其中,INT8和仅权重量化是一些改进推断成本的方法。然而,这些方法通常针对CUDA进行优化,可能不适用于CPU。

Intel新AI方法:CPU上高效部署LLM

Intel研究人员提出了一种有效的方法,可以在CPU上高效部署LLM。他们的方法支持自动的INT-4仅权重量化流程,即将低精度应用于模型的权重,而将激活函数的精度保持较高。此外,他们设计了一个特定的LLM运行时,具有高度优化的内核,可以加速CPU上的推断过程。

他们的权重量化流程基于Intel神经压缩器,并允许在不同的量化配方、粒度和组大小上进行调整,以生成满足准确性目标的INT4模型。然后,将模型传递给LLM运行时,这是一个专门设计用于评估量化模型性能的环境。该运行时已经设计用于在CPU上高效推断LLM。

在他们的实验中,研究人员选择了一些参数大小不同的流行LLM,范围从7B到20B。他们使用开源数据集评估了FP32和INT4模型的性能。他们观察到,在所选数据集上,量化模型的准确性几乎与FP32模型相当。此外,他们对下一个标记生成的延迟进行了比较分析,并发现LLM运行时比ggml-based解决方案性能提高了多达1.6倍。

研究论文提出了解决LLM推断在CPU上的一个最大挑战的方法。传统上,这些模型需要像GPU这样的专用硬件,这使它们对许多组织来说不可及。这篇论文提出了INT4模型量化以及专门的LLM运行时,以在CPU上高效推断LLM。

在一组流行的LLM上进行评估时,该方法表现出比ggml-based解决方案更具优势,并且在准确性上与FP32模型相当。然而,还有进一步改进的空间,研究人员计划推动在个人计算机上实现生成式人工智能,以满足对人工智能生成内容不断增长的需求。

项目网址:https://github.com/intel/intel-extension-for-transformers

本网站的内容主要来自互联网上的各种资源,仅供参考和信息分享之用,不代表本网站拥有相关版权或知识产权。如您认为内容侵犯您的权益,请联系我们,我们将尽快采取行动,包括删除或更正。
AI资讯

OpenAI开启Data Partnerships计划,构建新的AI训练数据集

2023-11-10 23:46:21

AI资讯

AI Excel公式生成器:一个月收入2万美元的创业项目

2023-11-10 23:57:44

个人中心
购物车
优惠劵
今日签到
有新私信 私信列表
搜索