Intel新AI方法：CPU上高效部署LLM

释放双眼，带上耳机，听听看~！

Intel研究人员提出了一种新的AI方法，可以在CPU上高效部署LLM，降低推断成本，提高模型性能。

**划重点:**

– 🌐 大型语言模型（LLM）因在文本生成、语言理解和文本摘要等任务中的卓越表现而备受欢迎，但其庞大的模型参数却需要大量内存和专用硬件。

– 🧮 为了降低推断所需的计算功率，Intel的研究人员提出了一种有效的方法，支持自动的INT-4权重量化流程，可以在CPU上高效部署LLM。

– ⚙️ 他们还设计了一个特定的LLM运行时，具有高度优化的内核，加速CPU上的推断过程。

AICMTY（aicmty.com） 11月10日消息:大型语言模型（LLM）因其在文本生成、语言理解和文本摘要等各种任务中的卓越性能而备受瞩目，但它们庞大的模型参数却需要大量内存和专用硬件，这使得部署这些模型变得相当具有挑战性。

为了降低推断所需的计算功率，研究人员通常采用权重量化等方法，即减少人工神经网络的权重和激活函数的精度。其中，INT8和仅权重量化是一些改进推断成本的方法。然而，这些方法通常针对CUDA进行优化，可能不适用于CPU。

Intel新AI方法：CPU上高效部署LLM

Intel研究人员提出了一种有效的方法，可以在CPU上高效部署LLM。他们的方法支持自动的INT-4仅权重量化流程，即将低精度应用于模型的权重，而将激活函数的精度保持较高。此外，他们设计了一个特定的LLM运行时，具有高度优化的内核，可以加速CPU上的推断过程。

他们的权重量化流程基于Intel神经压缩器，并允许在不同的量化配方、粒度和组大小上进行调整，以生成满足准确性目标的INT4模型。然后，将模型传递给LLM运行时，这是一个专门设计用于评估量化模型性能的环境。该运行时已经设计用于在CPU上高效推断LLM。

在他们的实验中，研究人员选择了一些参数大小不同的流行LLM，范围从7B到20B。他们使用开源数据集评估了FP32和INT4模型的性能。他们观察到，在所选数据集上，量化模型的准确性几乎与FP32模型相当。此外，他们对下一个标记生成的延迟进行了比较分析，并发现LLM运行时比ggml-based解决方案性能提高了多达1.6倍。

研究论文提出了解决LLM推断在CPU上的一个最大挑战的方法。传统上，这些模型需要像GPU这样的专用硬件，这使它们对许多组织来说不可及。这篇论文提出了INT4模型量化以及专门的LLM运行时，以在CPU上高效推断LLM。

在一组流行的LLM上进行评估时，该方法表现出比ggml-based解决方案更具优势，并且在准确性上与FP32模型相当。然而，还有进一步改进的空间，研究人员计划推动在个人计算机上实现生成式人工智能，以满足对人工智能生成内容不断增长的需求。

项目网址：https://github.com/intel/intel-extension-for-transformers

本网站的内容主要来自互联网上的各种资源，仅供参考和信息分享之用，不代表本网站拥有相关版权或知识产权。如您认为内容侵犯您的权益，请联系我们，我们将尽快采取行动，包括删除或更正。

{{userData.name}}已认证

Intel新AI方法：CPU上高效部署LLM

OpenAI开启Data Partnerships计划，构建新的AI训练数据集

AI Excel公式生成器：一个月收入2万美元的创业项目

GeoSpy.ai

Globe Explorer

即梦Dreamina

Luma Dream Machine

Motionshop

StoryDiffusion

归档

{{userData.name}}已认证

OpenAI开启Data Partnerships计划，构建新的AI训练数据集

AI Excel公式生成器：一个月收入2万美元的创业项目

全新近似注意力机制HyperAttention：解决长上下文计算挑战

IBM发布新品Watsonx.governance，助力企业提升人工智能透明度

大模型幻觉问题：Vectara机构排行榜引发业内热议

Vicuna Makers新型小型语言模型LLM与GPT-4性能媲美