Vicuna Makers新型小型语言模型LLM与GPT-4性能媲美

释放双眼，带上耳机，听听看~！

Vicuna Makers的研究团队成功构建了一个只有130亿参数的小型语言模型（LLM），在性能上与OpenAI的GPT-4相媲美。利用新工具LLM Decontaminator，研究人员通过改写测试集，使得LLM能够在主要基准测试中达到GPT-4的性能水平。Llama-rephraser的研发不仅在性能上取得突破，而且通过挑战对语言模型中数据污染的理解，为业务提供了性能与成本平衡的可能性。

**划重点:**

1. 🌐 Vicuna Makers的研究团队成功构建了一个只有130亿参数的小型语言模型（LLM），在性能上与OpenAI的GPT-4相媲美。

2. 🔄 利用新工具LLM Decontaminator，研究人员通过改写测试集，使得LLM能够在主要基准测试中达到GPT-4的性能水平。

3. 🌟 Llama-rephraser的研发不仅在性能上取得突破，而且通过挑战对语言模型中数据污染的理解，为业务提供了性能与成本平衡的可能性。

AICMTY（aicmty.com）11月17日消息:Vicuna Makers的研究团队在构建Vicuna语言模型的基础上，成功推出了一款新型的小型人工智能模型（LLM），该模型在性能上与OpenAI的GPT-4相媲美，仅包含130亿个参数。

这一新模型被命名为Llama-rephraser，由LMSYS Org揭示。尽管规模相对较小，但该模型在主要基准测试中达到了GPT-4的性能水平。这一成就的关键在于团队采用了一种独特的方法:通过改写测试集，即对测试样本进行释义，使模型能够进行泛化并实现高性能。

通过在数据集中改变句子，Llama-rephraser不仅帮助模型记住文本，更能理解其含义。通过用变化的短语提示模型，研究团队验证了模型是否真正理解了材料。结果表明，Llama-rephraser能够返回正确的响应。

Vicuna Makers新型小型语言模型LLM与GPT-4性能媲美

这一创新性的方法让这个拥有130亿参数的Llama-rephraser在基准测试中取得了GPT-4级别的成绩，包括涵盖基本数学、计算机科学、法律等多个领域的流行MMLU基准测试，以及人工评估模型代码生成的HumanEval基准测试。

这一研究的最大成就之一是挑战了对语言模型中数据污染的理解。数据污染指的是测试集的信息泄漏到训练集中，可能导致对模型性能的过于乐观的估计，尤其是对于一个只有130亿参数的模型能够达到GPT-4的成果。

在构建Llama-rephraser的研究过程中，他们发现类似CodeAlpaca的GPT生成的合成数据可能导致微妙的污染，这是难以检测的。为了解决这个问题，他们引入了一个名为LLM Decontaminator的新工具，用于量化数据集的释义样本与基准的对比，使开发人员能够估计数据集中释义样本的污染程度，并将其删除。

对于企业而言，这意味着在采用人工智能解决方案时，有必要使模型规模更小，以保持运营成本的低廉。像Llama-rephraser这样性能媲美GPT-4的小型模型的出现，有助于企业在性能和成本之间取得平衡。此外，LLM Decontaminator这样的工具还可以帮助企业完善其现有系统，使当前一代模型得以改进，而无需在开发成本上投入大量资金构建全新的模型。

LMSYS Org在博客文章中呼吁社区重新思考在大型语言模型背景下的基准测试和数据污染，并在对大型语言模型进行公共基准测试时采用更强大的去污染工具。

本网站的内容主要来自互联网上的各种资源，仅供参考和信息分享之用，不代表本网站拥有相关版权或知识产权。如您认为内容侵犯您的权益，请联系我们，我们将尽快采取行动，包括删除或更正。

{{userData.name}}已认证

Vicuna Makers新型小型语言模型LLM与GPT-4性能媲美

蛙蛙写作：AI写小说神器，轻松创作短篇小说

Win11 KB5032288 更新发布，解决多项问题

GeoSpy.ai

Globe Explorer

即梦Dreamina

Luma Dream Machine

Motionshop

StoryDiffusion

归档

{{userData.name}}已认证

蛙蛙写作：AI写小说神器，轻松创作短篇小说

Win11 KB5032288 更新发布，解决多项问题

GPT-4的新突破：通过复述问题提高回答准确率

GPT-4发布！ChatGPT升级版上线，API定价大幅降低，发布会掌声不断

OpenAI CEO：GPT-4周活用户数达1亿，仍是世界上能力最强AI大模型

OpenAI CEO宣布GPT-4周活用户数达到1亿，仍是全球最强AI大模型