介绍
GPT-4是OpenAI在扩大深度学习方面努力的最新里程碑。GPT-4是一个大型多模式模型(接受图像和文本输入,发出文本输出),虽然在许多真实世界的场景中能力不如人类,但在各种专业和学术基准上表现出人类水平的表现。
摘要
我们已经创建了GPT-4,这是OpenAI在扩大深度学习方面努力的最新里程碑。GPT-4是一个大型多模式模型(接受图像和文本输入,发出文本输出),虽然在许多真实世界的场景中能力不如人类,但在各种专业和学术基准上表现出人类水平的表现。例如,它通过了一次模拟的律师考试,考生的分数在前10%左右;相比之下,GPT-3.5的分数在后10%左右。我们花了6个月的时间反复调整GPT-4,使用我们对手测试计划以及ChatGPT的经验教训,在真实性、可操控性和拒绝走出护栏方面产生了我们有史以来最好的结果(尽管远未完美)。
在过去的两年里,我们重建了整个深度学习堆栈,并与Azure一起从头开始为我们的工作负载共同设计了一台超级计算机。一年前,我们将GPT-3.5作为该系统的第一次“试运行”进行了培训。我们发现并修复了一些错误,完善了我们的理论基础。结果,我们的GPT-4训练跑(至少对我们来说是这样!)前所未有的稳定,成为我们第一个能够提前准确预测训练成绩的大型模型。随着我们继续专注于可靠的扩展,我们的目标是磨练我们的方法,以帮助我们越来越提前地预测和准备未来的能力-我们认为这对安全至关重要。
我们将通过ChatGPT和API(带有等待名单)发布GPT-4的文本输入功能。为了为更广泛的可用性做好图像输入功能的准备,我们正在与单一合作伙伴密切合作。我们还开源了OpenAI evals,这是我们的AI模型性能自动评估框架,允许任何人报告我们模型中的缺陷,以帮助指导进一步的改进。
性能
在一次随意的谈话中,GPT-3.5和GPT-4之间的区别可能是微妙的。当任务的复杂性达到足够的阈值时,差异就会显现出来–GPT-4比GPT-3.5更可靠、更有创造力,能够处理更多细微差别的指令。
为了了解这两种模型之间的差异,我们对各种基准进行了测试,包括最初为人类设计的模拟考试。我们使用了最新的公开测试(在奥林匹克和AP自由回答题的情况下),或者购买了2022-2023年版的练习考试。我们没有为这些考试做过专门的培训。考试中的一小部分问题在培训期间被模型看到,但我们相信结果具有代表性-详细信息请参阅我们的技术报告。
我们还在为机器学习模型设计的传统基准上对GPT-4进行了评估。GPT-4的表现远远超过现有的大型语言模型,与大多数最先进的(SOTA)模型相比,SOTA模型可能包括特定于基准的制作或额外的培训协议:
许多现有的ML基准测试都是用英语编写的。为了初步了解其他语言的能力,我们使用Azure翻译将MMLU基准测试–一套涉及57个科目的14,000个多项选择题–翻译成多种语言(见附录)。在测试的26种语言中的24种中,GPT-4的表现优于GPT-3.5和其他LLM(钦奇拉语、棕榈语)的英语语言表现,包括拉脱维亚语、威尔士语和斯瓦希里语等资源较少的语言:
我们也一直在内部使用GPT-4,对支持、销售、内容审核和编程等功能产生了很大影响。我们还在使用它来帮助人类评估人工智能输出,开始我们对齐战略的第二阶段。
视觉输入
GPT-4可以接受文本和图像提示,与纯文本设置类似,它允许用户指定任何视觉或语言任务。具体来说,它生成文本输出(自然语言、代码等)给定的输入由散布的文本和图像组成。在一系列域中–包括带有文本和照片、图表或屏幕截图的文档–GPT-4显示出与纯文本输入类似的功能。此外,它还可以使用为纯文本语言模型开发的测试时间技术来增强,包括少发和思维链提示。图像输入仍然是一个研究预览,还不能公开使用。
我们通过在一套狭窄的标准学术视野基准上对GPT-4的表现进行评估来预览GPT-4的表现。然而,这些数字并不完全代表其能力的程度,因为我们不断发现该模型能够处理的新的令人兴奋的任务。我们计划很快公布进一步的分析和评估数字,以及对测试时间技术效果的彻底调查。
操纵性
我们一直在研究我们在帖子中概述的关于定义人工智能行为的计划的每一个方面,包括可操纵性。开发人员(以及不久的ChatGPT用户)现在可以通过在“系统”消息中描述这些方向来规定他们的人工智能的风格和任务,而不是具有固定冗长、语气和风格的经典ChatGPT个性。系统消息允许API用户在一定范围内显著定制用户体验。我们将在这里不断改进(特别知道系统消息是“越狱”当前模型的最简单方式,即对边界的遵守并不完美),但我们鼓励您尝试一下,并让我们知道您的想法。
局限性
尽管GPT-4功能强大,但它与早期的GPT型号具有类似的限制。最重要的是,它仍然不是完全可靠的(它会对事实产生幻觉,并犯下推理错误)。在使用语言模型输出时,尤其是在高风险环境中,使用与特定用例需求相匹配的确切协议(如人工审查、附加环境基础或完全避免高风险使用)时,应格外小心。
虽然GPT-4仍然是一个真正的问题,但相对于以前的型号(它们本身在每次迭代中都在改进)来说,GPT-4显著减少了幻觉。在内部对抗性真实性评估中,GPT-4的得分比我们最新的GPT-3.5高40%:
我们在像TruthfulQA这样的外部基准方面取得了进展,它测试了模型将事实从对手选择的一组错误陈述中分离出来的能力。这些问题与事实错误的答案搭配在一起,在统计上是有吸引力的。
在这项任务中,GPT-4基础模型仅略好于GPT-3.5;然而,在RLHF后培训(应用我们与GPT-3.5相同的过程)之后,存在着很大的差距。看看下面的一些例子,GPT-4拒绝选择常见的谚语(你不能教一只老狗新的把戏),但它仍然会错过微妙的细节(猫王不是演员的儿子)。
该模型的输出可能会有各种偏差–我们已经在这些方面取得了进展,但仍有更多工作要做。根据我们最近的博客文章,我们的目标是让我们构建的人工智能系统具有合理的默认行为,反映广泛的用户价值观,允许这些系统在广泛的范围内进行定制,并就这些范围应该是什么征求公众的意见。
GPT-4通常缺乏对其绝大多数数据中断(2021年9月)后发生的事件的了解,也没有从自己的经验中吸取教训。它有时会犯一些简单的推理错误,这些错误似乎不符合这么多领域的能力,或者在接受用户明显的错误陈述时过于容易上当。有时,它可能会像人类一样在困难的问题上失败,比如在它生成的代码中引入安全漏洞。
GPT-4也可能在其预测中肯定是错误的,在可能出错的时候不注意仔细检查工作。有趣的是,基本的预训练模型是高度校准的(它对答案的预测置信度通常与正确的概率相匹配)。然而,通过我们目前的培训后过程,校准减少了。
风险和缓解措施
我们一直在重复GPT-4,以使其从培训开始就更安全、更一致,努力包括选择和筛选培训前数据、评估和专家参与、模型安全改进以及监测和执行。
GPT-4带来了与以前的模型类似的风险,例如生成有害建议、错误代码或不准确的信息。然而,GPT-4的额外能力导致了新的风险表面。为了了解这些风险的程度,我们聘请了来自人工智能结盟风险、网络安全、生物风险、信任与安全以及国际安全等领域的50多名专家对该模型进行了对抗性测试。他们的发现特别使我们能够在需要专业知识来评估的高风险领域测试模型行为。来自这些专家的反馈和数据反馈到我们对该模型的缓解和改进中;例如,我们收集了额外的数据,以提高GPT-4拒绝有关如何合成危险化学品的请求的能力。
GPT-4在RLHF培训期间加入了额外的安全奖励信号,通过培训模型拒绝此类内容的请求来减少有害输出(如我们的使用指南所定义)。奖励是由GPT-4零杆分类器提供的,该分类器根据与安全相关的提示判断安全边界和完成方式。为了防止模型拒绝有效的请求,我们从各种来源(例如,标记的生产数据、人工红团队、模型生成的提示)收集不同的数据集,并在允许和不允许的类别上应用安全奖励信号(具有正值或负值)。
与GPT-3.5相比,我们的缓解措施显著提高了GPT-4的许多安全属性。与GPT-3.5相比,该模型响应不允许内容请求的倾向降低了82%,而GPT-4根据我们的策略响应敏感请求(例如,医疗建议和自我伤害)的频率提高了29%。