深入探索 GPT-4 提问技巧系列第六篇：OpenAI evals 系统评测工具

释放双眼，带上耳机，听听看~！

本文深入探讨了 GPT-4 提问技巧系列的第六篇文章，主要介绍了 OpenAI 开源的 evals 系统评测工具，帮助读者更好地理解和使用这一工具。

深入探索 GPT-4 提问技巧系列的第六篇文章，主要介绍 OpenAI 开源的 evals 系统评测工具。

本文是 GPT4 提问技巧系列的第六篇 (严格来说，这一篇不算是 GPT-4 的提问题技巧了，不过为了延续这一个系列的名字，这里也就继续用这个标题了)，全部系列文章：

OpenAI 的 GPT 模型一直在不断进化，从 GPT-3 到 GPT-3.5，再到现在强大的 GPT-4，每一步都伴随着各种优化措施，使 AI 的回答变得越来越智能。然而，即使是同一版本的模型，使用不同的提示词也会产生质量各异的回答。这就引出了一个挑战：如何判断某个改变是否真正提升了 AI 的回答质量？换句话说，我们如何得出 GPT-4 比 GPT-3 更强大，或者哪个提示词效果更佳的结论？

这个问题并不容易解答。我们可能会看到一些例子，这些例子似乎暗示了新的改变带来了更好的效果。但是，由于我们只看到了少数几个例子，我们很难确定这是否是真正的改进，还是仅仅是随机运气的结果。更复杂的是，可能存在这样的情况：这个改变在某些输入下提升了效果，但在其他输入下却降低了效果。

近期，GPT-4 就因为这个问题受到了一些质疑。有人认为 OpenAI 为了节省算力，偷偷降低了模型的效果。例如，一篇公众号文章《大家都在吐槽 GPT-4 变‘笨’了，可能是架构重新设计惹的祸》就对此进行了讨论。在 OpenAI 的官方论坛上，也有很多类似的声音，如 “Has There Been A Recent Decrease In GPT-4 Quality?” 的讨论。甚至有人发表了论文，试图证明 GPT-4 的能力确实有所下降。

为了消除这些疑虑，同时也为了让开发者能更方便地评估模型的质量，OpenAI 决定开源他们的评测方法—— evals。这个工具的目标就是帮助我们更准确地评估我们的系统改进，让我们能够基于数据，而不是猜测，来决定我们的下一步行动。接下来，我将详细介绍这个工具的使用方法和评测标准，以便大家更好地理解和使用它。

Strategy: Test changes systematically 中给出了一个不错的答案:

代表现实世界的使用场景（或至少是多样化的）：测试用例覆盖到许多使用场景，包括常见的和边缘的情况。

包含许多测试用例以获得更大的统计能力：评测结果需要有较高的置信度。

易于自动化或重复：为了确保评测结果的可靠性，我们需要能够轻松地重复评测过程。

评测工具 evals 的设计理念和实现方式，很好的体现了上述的评测设计原则。首先，它包含了各种类型的问题，如事实性问题、推理问题、创新性问题等，这些问题覆盖了 GPT 模型在实际使用中可能遇到的各种场景。事实性问题最好评测，这类问题的答案往往是一组已知事实，我们可以比对模型的输出包含多少事实。比如一些单选问题，判断问题，多选问题等。其他问题就比较难评测，比如翻译质量，总结摘要等。

其次，evals 包含了大量的测试用例，这使得我们可以从统计的角度对 GPT 模型的效果进行评估。最后，evals 的设计使得评测过程可以自动化运行。使用 evals，我们可以轻松地在不同的时间点，或者在 GPT 模型进行了修改之后，重新进行评测。

这里是《楚辞》相关的匹配评测集，其中一条记录如下格式，给定了 Prompt 和期待的回答：

{
    "input":[
        {
            "role":"user",
            "content":"下面这段内容出自哪篇楚辞？请仅回复楚辞名。 例如：《离骚》n---n民生各有所乐兮，余独好修以为常。"
        }
    ],
    "ideal":[
        "《离骚》"
    ]
}

参考 README 和 How to run evals，我们在本地通过命令 pip install -e . 安装了 oaieval 工具，下面来执行下评测集看看。

chinese_hard_translations，一共样本数量不多，如下图：

chinese_famous_novel，比如 “小说《一地鸡毛》的作者是谁? 只回答作者名称, 不要额外附加其他内容”。

发音判断。提示词：下面这句话中是否存在发音一样的中文单词（两个汉字及以上），若存在返回是，若不存在返回否。你只需要输出是或者否。评测集在 chinese_homonym，里面还有歌词，比如 “生活像一把无情的雕刻刀，改变了我们的样子。”。

猜字谜。提示词：

根据我给的描述猜出一个字 (请从汉字的字形、发音、意义以及字的拆分组合等角度考虑)。首先提供你的推理，然后提供用英文方括号括[] 起来的最终答案。

评测集在 Chinese_character_riddles，例子都还挺有意思，比如：

“一只黑狗，不叫不吼。” 。
小屋四四方，不见门和窗，有人犯了法，把他往里装。
田字露脚又露头，花果山上到处游，见人就把冤来报，戴上帽子问根由。

同音语义理解。这个是多选题，提示词：

The following are multiple choice questions (with answers) about Chinese homonym. Answer the question with english letter “A”, “B” only, without explanation. Reply with only the option letter.

评测集在 chinese_homophonic，一些例子：

剩女产生的原因有个：一是谁都看不上，二是谁都看不上。这句话中的 “看不上” 是相同的意思吗？nA. 相同 nB. 不同”
关于穿衣服，冬天能穿多少穿多少，夏天能穿多少穿多少。这句话中的 “多少” 是相同的意思吗？nA. 相同 nB. 不同
孙悟空的金箍棒不见了，去询问土地公公，孙悟空：”我的金箍棒在哪里？” 土地公公：”大圣，你的金箍，棒就棒在特别配你的发型”。请问土地公公回答的对吗？nA. 不对 nB. 对

实际上，中文数据集在整个评测集中只占据了一小部分。OpenAI 提供的评测用例非常丰富，可以帮助我们全面地评估模型的性能。在这篇文章中，我们只是简单地了解了 OpenAI 的 eval 评测示例。但是，这只是冰山一角。为了更深入地理解这个评测库，我们需要从代码的角度进行分析。在接下来的文章中，我们将深入探讨 eval 评测库的内部结构，以及如何使用这个库来进行更复杂、更精细的模型评估。

本网站的内容主要来自互联网上的各种资源，仅供参考和信息分享之用，不代表本网站拥有相关版权或知识产权。如您认为内容侵犯您的权益，请联系我们，我们将尽快采取行动，包括删除或更正。

{{userData.name}}已认证

深入探索 GPT-4 提问技巧系列第六篇：OpenAI evals 系统评测工具

chinese_hard_translations，一共样本数量不多，如下图：

DALL-E 3 教程：如何通过格子布局生成动图GIF

DALL-E 3: 18种定制文字效果让你的图片更生动

GeoSpy.ai

Globe Explorer

即梦Dreamina

Luma Dream Machine

Motionshop

Kling AI | Sora-Like Video Model

归档

{{userData.name}}已认证

chinese_hard_translations，一共样本数量不多，如下图：

DALL-E 3 教程：如何通过格子布局生成动图GIF

DALL-E 3: 18种定制文字效果让你的图片更生动

GPT-4内幕大揭露！1.8万亿巨量参数，13万亿token训练，斥资6300万美元

OpenAI ChatGPT Plus 用户重大更新！GPT-4 成默认模型，快捷键功能全面升级

OpenAI推出GPT-4，但并未确认诞生

OpenAI发布多模态预训练大模型GPT-4，支持视觉输入和文字输入限制提升