深入探索 GPT-4 提问技巧系列第六篇:OpenAI evals 系统评测工具

释放双眼,带上耳机,听听看~!
本文深入探讨了 GPT-4 提问技巧系列的第六篇文章,主要介绍了 OpenAI 开源的 evals 系统评测工具,帮助读者更好地理解和使用这一工具。

深入探索 GPT-4 提问技巧系列的第六篇文章,主要介绍 OpenAI 开源的 evals 系统评测工具。

本文是 GPT4 提问技巧系列的第六篇 (严格来说,这一篇不算是 GPT-4 的提问题技巧了,不过为了延续这一个系列的名字,这里也就继续用这个标题了),全部系列文章:

  1. GPT4 提问技巧一:写清晰的说明
  2. GPT4 提问技巧二:提供参考文本
  3. GPT4 提问技巧三:复杂任务拆分
  4. GPT4 提问技巧四:给模型思考时间
  5. GPT4 提问技巧五:借助外部工具
  6. GPT4 提问技巧六:系统基准评测

OpenAI 的 GPT 模型一直在不断进化,从 GPT-3 到 GPT-3.5,再到现在强大的 GPT-4,每一步都伴随着各种优化措施,使 AI 的回答变得越来越智能。然而,即使是同一版本的模型,使用不同的提示词也会产生质量各异的回答。这就引出了一个挑战:如何判断某个改变是否真正提升了 AI 的回答质量?换句话说,我们如何得出 GPT-4 比 GPT-3 更强大,或者哪个提示词效果更佳的结论?

这个问题并不容易解答。我们可能会看到一些例子,这些例子似乎暗示了新的改变带来了更好的效果。但是,由于我们只看到了少数几个例子,我们很难确定这是否是真正的改进,还是仅仅是随机运气的结果。更复杂的是,可能存在这样的情况:这个改变在某些输入下提升了效果,但在其他输入下却降低了效果。

近期,GPT-4 就因为这个问题受到了一些质疑。有人认为 OpenAI 为了节省算力,偷偷降低了模型的效果。例如,一篇公众号文章《大家都在吐槽 GPT-4 变‘笨’了,可能是架构重新设计惹的祸》就对此进行了讨论。在 OpenAI 的官方论坛上,也有很多类似的声音,如 “Has There Been A Recent Decrease In GPT-4 Quality?” 的讨论。甚至有人发表了论文,试图证明 GPT-4 的能力确实有所下降。

为了消除这些疑虑,同时也为了让开发者能更方便地评估模型的质量,OpenAI 决定开源他们的评测方法—— evals。这个工具的目标就是帮助我们更准确地评估我们的系统改进,让我们能够基于数据,而不是猜测,来决定我们的下一步行动。接下来,我将详细介绍这个工具的使用方法和评测标准,以便大家更好地理解和使用它。

Strategy: Test changes systematically 中给出了一个不错的答案:
  • 代表现实世界的使用场景(或至少是多样化的):测试用例覆盖到许多使用场景,包括常见的和边缘的情况。
  • 包含许多测试用例以获得更大的统计能力:评测结果需要有较高的置信度。
  • 易于自动化或重复:为了确保评测结果的可靠性,我们需要能够轻松地重复评测过程。

评测工具 evals 的设计理念和实现方式,很好的体现了上述的评测设计原则。首先,它包含了各种类型的问题,如事实性问题、推理问题、创新性问题等,这些问题覆盖了 GPT 模型在实际使用中可能遇到的各种场景。事实性问题最好评测,这类问题的答案往往是一组已知事实,我们可以比对模型的输出包含多少事实。比如一些单选问题,判断问题,多选问题等。其他问题就比较难评测,比如翻译质量,总结摘要等。

其次,evals 包含了大量的测试用例,这使得我们可以从统计的角度对 GPT 模型的效果进行评估。最后,evals 的设计使得评测过程可以自动化运行。使用 evals,我们可以轻松地在不同的时间点,或者在 GPT 模型进行了修改之后,重新进行评测。

这里 是《楚辞》相关的匹配评测集,其中一条记录如下格式,给定了 Prompt 和期待的回答:
{
    "input":[
        {
            "role":"user",
            "content":"下面这段内容出自哪篇楚辞?请仅回复楚辞名。 例如:《离骚》n---n民生各有所乐兮,余独好修以为常。"
        }
    ],
    "ideal":[
        "《离骚》"
    ]
}

参考 READMEHow to run evals,我们在本地通过命令 pip install -e . 安装了 oaieval 工具,下面来执行下评测集看看。

chinese_hard_translations,一共样本数量不多,如下图:

chinese_famous_novel,比如 “小说《一地鸡毛》的作者是谁? 只回答作者名称, 不要额外附加其他内容”。

发音判断。提示词:下面这句话中是否存在发音一样的中文单词(两个汉字及以上),若存在返回是,若不存在返回否。你只需要输出或者。评测集在 chinese_homonym,里面还有歌词,比如 “生活像一把无情的雕刻刀,改变了我们的样子。”。

猜字谜。提示词:

根据我给的描述猜出一个字 (请从汉字的字形、发音、意义以及字的拆分组合等角度考虑)。首先提供你的推理,然后提供用英文方括号括[] 起来的最终答案。

评测集在 Chinese_character_riddles,例子都还挺有意思,比如:

“一只黑狗,不叫不吼。” 。
小屋四四方,不见门和窗,有人犯了法,把他往里装。
田字露脚又露头,花果山上到处游,见人就把冤来报,戴上帽子问根由。

同音语义理解。这个是多选题,提示词:

The following are multiple choice questions (with answers) about Chinese homonym. Answer the question with english letter “A”, “B” only, without explanation. Reply with only the option letter.

评测集在 chinese_homophonic,一些例子:

剩女产生的原因有个:一是谁都看不上,二是谁都看不上。这句话中的 “看不上” 是相同的意思吗?nA. 相同 nB. 不同”
关于穿衣服,冬天能穿多少穿多少,夏天能穿多少穿多少。这句话中的 “多少” 是相同的意思吗?nA. 相同 nB. 不同
孙悟空的金箍棒不见了,去询问土地公公,孙悟空:”我的金箍棒在哪里?” 土地公公:”大圣,你的金箍,棒就棒在特别配你的发型”。请问土地公公回答的对吗?nA. 不对 nB. 对

实际上,中文数据集在整个评测集中只占据了一小部分。OpenAI 提供的评测用例非常丰富,可以帮助我们全面地评估模型的性能。在这篇文章中,我们只是简单地了解了 OpenAI 的 eval 评测示例。但是,这只是冰山一角。为了更深入地理解这个评测库,我们需要从代码的角度进行分析。在接下来的文章中,我们将深入探讨 eval 评测库的内部结构,以及如何使用这个库来进行更复杂、更精细的模型评估。

本网站的内容主要来自互联网上的各种资源,仅供参考和信息分享之用,不代表本网站拥有相关版权或知识产权。如您认为内容侵犯您的权益,请联系我们,我们将尽快采取行动,包括删除或更正。
AI教程

DALL-E 3 教程:如何通过格子布局生成动图GIF

2023-11-20 15:32:14

AI教程

DALL-E 3: 18种定制文字效果让你的图片更生动

2023-11-20 15:44:14

个人中心
购物车
优惠劵
今日签到
有新私信 私信列表
搜索