零、前言
📌本文为稀土掘金技术社区首发签约文章,30天内禁止转载,30天后未获授权禁止转载,侵权必究!
📕欢迎访问:
Bilibili:space.bilibili.com/57089326
注意,本文不涉及太多复杂的公式与数学推导,初学者或者像笔者一样数学不好的读者可以放心阅读!
一、一分钟读论文
本文研究了三种LLM:GPT-3.5、GPT-4和LLaMa-2在博弈论框架下的战略决策能力。作者利用四个经典的双人博弈游戏——囚徒困境、狩猎野鹿、雪堆和囚徒的喜悦(读者如果有哪个不太了解的话没关系,马上我们就会做简单的介绍),探讨了这些模型如何在社会困境中进行决策,即玩家可以选择合作获得集体利益或者为了个人利益而背叛的情况。
除此之外,作者扩展了分析,即考察了上下文框架在塑造模型决策中的作用,得到的结论概括如下:
- 虽然GPT-3.5对上下文框架非常敏感,但在抽象战略推理方面能力有限
- GPT-4和LLaMa-2根据博弈结构和上下文调整策略,但LLaMa-2对游戏的基本机制有更细致的理解
这些结果凸显了LLM在战略决策方面的当前限制和不同的能力水平,警示我们不要在需要复杂战略推理的任务中盲目使用它们。
二、博弈游戏简介
囚徒困境Prisoner’s Dilemma
囚徒困境非常经典,游戏中,会有两名被捕的囚徒面临合作和背叛之间的选择。如果两名囚徒都选择合作,他们会得到较轻的刑罚。如果一个囚徒选择合作而另一个囚徒选择背叛,背叛者将会得到较轻的刑罚,而合作者则会得到较重的刑罚。如果两名囚徒都选择背叛,他们将会得到中等刑罚。因此,囚徒面临着一个困境:背叛对个体来说可能是最好的选择,但如果两个人都背叛,他们的总体结果将会更糟。
狩猎野鹿Stag Hunt
狩猎野鹿也很经典,但可能知名度不如囚徒困境那么大,狩猎野鹿也是强调合作和背叛之间的权衡。在这个游戏中,两名猎人可以选择合作狩猎大野鹿,也可以选择背叛,然后各自狩猎小野兔。如果两名猎人都选择狩猎大野鹿,他们将获得更高的回报。然而,如果一名猎人选择狩猎大野鹿而另一名选择狩猎小野兔,那么选择狩猎大野鹿的猎人将会失败,而选择狩猎小野兔的猎人将获得较低的回报。是不是听起来和囚徒困境很类似?没错,在这个游戏中,合作狩猎大野鹿也是需要相互信任和协调,但存在风险,因为如果对方选择背叛,自己将会损失较多。
雪堆Snowdrift
雪堆也是一种描述合作和不合作之间冲突的博弈游戏。在这个游戏中,玩家可以选择提供帮助来清理雪堆,也可以选择不提供帮助而从其他人的努力中获益。如果没有人提供帮助,那么雪堆将继续存在,对每个人都是负担。如果一个人提供帮助而其他人不提供帮助,那么提供帮助的人将承担清理雪堆的成本,但其他人将从他的努力中受益。这种情况下,提供帮助的人可能会感到受欺骗。在这个游戏中,存在合作和背叛之间的平衡,因为每个人都希望从别人的努力中获益,但不愿意自己承担成本。
说一个大家能有更直观感受的例子,如果宿舍里只有一个垃圾桶…想必大家懂的都懂了。
囚徒的喜悦Prisoner’s Delight
囚徒的喜悦是囚徒困境的一个变种,它引入了对他人行为的惩罚和奖励机制。在传统的囚徒困境中,囚徒面临合作和背叛的选择,他们的目标是最大化自己的回报。而在囚徒的喜悦中,囚徒除了选择合作和背叛外,还可以选择惩罚或奖励对方。
简单解释一下,囚徒的喜悦引入了一个额外的选项,即囚徒可以选择付出一些代价来惩罚对方,或者选择为对方提供一些奖励。这意味着囚徒可以对对方的行为作出积极的反应。打个比方,如果囚徒A选择合作而囚徒B选择背叛,合作的囚徒A可以通过惩罚背叛者囚徒B来减少其回报,或者通过奖励背叛者B来增加其回报。
囚徒的喜悦的引入可以改变传统囚徒困境的动态。通过设置合适的奖惩机制,囚徒有动机更倾向于合作,因为他们知道背叛将会导致额外的惩罚。这种机制可以促进合作,减少背叛行为的发生,并在某种程度上改善囚徒困境的结果。
三、LLM能不能理解语境?
OpenAI的GPT和Meta的LLaMa-2等LLM因其在远超简单对话的众多类人类任务中的表现引起了广泛关注。有人认为这些模型可能是朝着人工通用智能(AGI)的中间步骤发展的。最近的进展显示,GPT-4通过了律师资格考试,GPT-3解决了复杂的数学问题。尽管取得了这些成就,这些模型在网络结构识别等任务中仍存在局限性。
对于LLM如GPT和LLaMa-2的社会行为科学研究可以分为两个主要流派:
- 探索与人类相似的认知能力,比如推理、心理学等等
- 评估在各种任务中与人类技能的比较表现
在经济学领域,重点主要在于性能评估,探索市场研究和情感分析等应用。这种双重关注在社会科学研究中汇聚起来,LLM因其在实验环境中模拟人类行为的潜力而受到关注。值得注意的是,在复杂的社会困境和博弈论的框架中,LLM正在被用来测试它们的认知推理能力和表现结果。现有研究表明,LLM在某种程度上可以模仿人类行为,但它们在博弈论背景下的战略决策能力仍需要进一步探索。
除了博弈的结构要素外,情境框架(笔者觉得可以简单理解为语境,在下文中这两者是同一个意思)可以显著影响决策过程。有关人类行为的先前研究强调了情境在塑造战略选择方面的强大作用;例如,将一个游戏框架描述为华尔街冒险与社区努力会导致不同的决策。因此,我们的研究旨在超越对LLM基本战略能力的评估,还要考虑到游戏结构和情境框架对它们决策的影响。
为了解开LLM战略决策的复杂性,本文对三个不同模型进行了一系列博弈论模拟。作者将重点放在社会困境上,这些游戏中的玩家可以为了集体利益合作,也可以为了个人利益而背叛。从众所周知的囚徒困境开始,扩展到其他两人游戏,如猎鹿游戏、雪堆游戏和囚徒的喜悦。
除了研究这些游戏之外,作者引入了五种不同的情境,从商业和外交讨论到朋友之间的随意互动,以评估情境框架对战略选择的影响。本文的主要研究问题是确定游戏结构相对于情境框架在塑造这些模型行为方面的相对重要性。
本文的研究结果揭示了LLM在战略情境中如何作出反应的微妙细节,省流版结论如下:
- GPT-3.5对情境框架特别敏感,但在把握基于最佳反应策略的抽象战略考虑方面表现能力有限
- GPT-4和LLaMa-2都展现出更加平衡的方法,根据内在的游戏结构和情境框架调整策略
- 在特定领域中,例如朋友之间的游戏互动情境,情境的影响更加显著,而游戏结构本身则次要
- 相对于LLaMa-2,GPT-4在平均水平上更重视游戏结构而不是情境
- 优先考虑游戏结构而不是情境并不意味着对不同游戏类型进行细致区分,比如GPT-4似乎采用了二元阈值的方法,将游戏分为“高”和“低”社会困境桶,而不是识别每个游戏的独特特征
- 与上条相反的,LLaMa-2对各种游戏结构有更细致的理解,这表明LLaMa-2在处理不同战略情境的微妙之处方面更加有优势,并将情境纳入其决策过程中,而GPT-4采用了更一般化、以结构为中心的策略
除了分析这些大型语言模型的决策模式外,本文还研究了相关证据,以进一步解析它们不同行为背后的机制,还是做一个省流版的结论:
- GPT-3.5似乎对战略情境有初步的理解,经常无法识别最佳响应,并犯下各种基本的数学错误
- GPT-4在论证中展示出更高水平的复杂性。它经常通过对游戏结构进行建模并根据其他玩家预期行动来调整回应来开始推理。然而,GPT-4也倾向于错误地描述游戏结构,即使结构上的细微差别表明不同。有趣的是,在朋友之间的游戏情境中,它采用了不同的推理方式,强调长期关系的重要性,而不是立即获得最大收益,尽管明确的游戏描述与此相反
- LLaMa-2以不同的方式处理这些战略情境,首先使用明确的博弈论语言将问题抽象到更高层次,然后在这个博弈论基础上添加情境因素,提供一个全面的分析,涵盖了游戏结构和情境因素
四、深入研究方法
下图展示了这项研究的示意工作流程以及本文生成结果的过程。对于每个游戏,作者结合一个上下文,用来指示模型所描述的交互所发生的社会环境,可以理解为前文提到的情景框架或者语境。在每个上下文和游戏的5 * 4 = 20种可能独特组合中,作者为每个LLM运行300次初始化,然后汇总结果以进行统计分析。
数据收集过程的示意图:将上下文提示和游戏提示的组合输入到三个LLM之一,即GPT-3.5、GPT-4和LLaMa-2中。每个组合创建了一个独特的情景,对于每个情景,作者收集300个初始化。然后将每个算法对应所有情景的数据进行汇总,并用于本研究的统计分析,而提供的动机将在本文的推理探索部分进行详细研究。
作者使用OpenAI的GPT-3.5-turbo-16k和GPT-4模型来运行实验,通过Python的openai包与它们进行接口交互。对于LLaMa-2,作者通过HuggingFace Pipeline访问LLaMa-2。为了标准化模拟,作者将OpenAI模型的响应token数限制为50个,而LLaMa-2则为8个,并将温度参数(如果不了解的话可以看下面的解释)设置为0.8。
选择这个温度设置有几个原因:
- 这样的温度设置与像ChatGPT这样的基于用户的应用程序中的默认设置相似,提供了一个现实的基准
- 在具有混合纳什均衡的游戏中,它允许探索多个合理的行动
- 较低的温度设置可能会掩盖这些算法固有的概率性质,并可能产生无法引起兴趣的结果
- 在相关的工作论文中通常使用较高的温度
本文的实验设计包括每个LLM的两个不同提示:
- 初始提示设置上下文,概述环境并指导算法扮演特定角色。其目的是为游戏创造一个真实的环境
- 第二个提示确定了游戏的“规则”,或更准确地说,游戏的收益结构。虽然上下文提示通过系统角色传达,但收益提示通过用户角色传达
在这两种情况下,作者坚持使用最佳实践,比如建议模型深思熟虑并使用更长的提示以提高清晰度。上下文提示被设计成普遍适用于所研究的各种游戏,为了广泛适用,牺牲了一定程度的具体性。每个提示的详细文本可以在附录A中找到。总结一下,本项研究提供以下场景,与图1的Contextual Framing对应:
- 两个不同国家的两位国家元首之间的峰会(International Relations)
- 两个不同公司的两位首席执行官之间的会议(Business Meetings)
- 两个不同公司的两位行业领导人之间的会议,共同承诺环境法规(Environmental Negotiations)
- 两个属于同一团队但竞争晋升的员工之间的对话(Team Interactions)
- 两个朋友之间试图达成妥协的聊天(Friendly Interactions)
在本文中,作者将“社会困境”定义为任何具有两种类型行动的战略互动模型,第一种是双方选择合作,会使双方玩家受益的社会最优行动,第二种是以牺牲另一方为代价而使一方玩家受益的个体最优行动。
如上图所示,我们不妨将社会最优行动称为**“合作”,简称为“C”,将个体最优行动称为“背叛”,简称为“D”。为了清晰起见,每个玩家采取的行动对应于一个收益向量**,我们用工具或点数来表示,遵循标准的博弈论惯例。向量中的第一项表示行动的行玩家收益,第二项保留给列玩家。具体来说:
- “R”表示相互合作的奖励
- “T”表示当对方合作时诱使背叛的诱因
- “S”表示对抗背叛者而合作者的吃亏收益
- “P”表示当双方选择背叛时双方都会受到的惩罚
这些值之间的不同关系产生了不同的游戏:
- 当T > R > P > S时,是囚徒困境
- 当T > R > S > P时,是雪堆
- 当R > T > P > S时,是狩猎野鹿
- 当R > T > S > P时,是囚徒的喜悦
值得一提的是,囚徒的喜悦并不完全是一个困境,而是一个反困境,因为选择合作在社会和个体层面上都是最优的。在相反的极端是囚徒困境,在囚徒困境中,选择背叛始终是最优的。
在这里,作者介绍了一个重要的术语:在囚徒困境和囚徒的喜悦中,只有一种行动是合理的。这意味着一种行动严格优于另一种行动,因此理性的玩家只会选择严格优势的行动。而狩猎野鹿和雪堆则处于中间地带,合作和背叛两种行动都是合理的。具体而言,在狩猎野鹿中,如果两个玩家协调选择相同的行动,则达到纯策略的纳什均衡,而在雪堆中,如果两个玩家协调选择相反的行动,则达到该均衡。由于没有一种行动严格优于另一种行动,理性的玩家可以选择任何一种行动,或者两种行动都选择,事实上,对于这些游戏,混合策略也存在均衡。
对于每个游戏和每个上下文,本研究运行300次初始化,并记录LLM采取的行动,以便进行后续分析。对于每个实验,作者保持了Prompt在LLM之间保持一致。
五、结论与尾声
下图展示了作者对三个LLM的结果的概述。左侧是游戏的观察结果,右侧是上下文的观察结果,每一行代表一个不同的LLM。我们不难获得一些结论:
- 不论是在游戏还是在上下文中,GPT-3.5都倾向于不合作
- GPT-4的行动选择比较两极分化,要么完全合作,要么完全背叛
- LLaMa-2的行为在一定程度上接近GPT-4,也有点两极分化,但程度没有很高,对不同游戏和不同上下文的响应之间存在更大的变化程度
本文的研究结果概述:使用条形图和根据游戏或上下文分组的结果进行展示。在y轴上,作者显示了在给定游戏和给定上下文下的平均合作倾向,同时显示了标准误差线。
- 图(a)和(b)是使用GPT-3.5进行实验的结果,并预示了一个关键发现:对于GPT-3.5而言,上下文比游戏更重要,决定了行动的选择
- 相反,图(c)和(d)显示了对于GPT-4来说情况恰恰相反:模型的选择似乎与上下文并没有很大的关系,任何上下文在四个游戏中都采取了相同的策略,即在两个游戏中合作,在另外两个游戏中背叛
- 最后,图(e)和(f)展示了LLaMa-2的结果,其行动选择明显比GPT-4更加取决于上下文和游戏的结构
除此之外,作者还注意到,friendsharing在所有情况中一直稳居前列,也就是说它是最有影响力的变量,这一点很有趣,大概可以说明模型对这方面的考虑做的还可以,我们可以通过下面这张表来很直观的对比影响力:
尽管这些排名本身已经提供了信息,但作者还对比较上下文和游戏在整体上哪个更重要感兴趣(也就是想得到一个更简单的结论)。于是作者计算每个组的重要性得分的平均值,并在绘制了统计图如下:
由此,我们不难可以得出结论:对于GPT-3.5来说,上下文的重要性平均更高,而对于GPT-4来说则相反。此外,LLaMa-2对游戏的关注程度也高于对上下文的关注程度,但程度不及GPT-4。
从博弈论的角度对这些算法的理性程度进行最终评估并不是一项容易的任务,所以后续作者还做了更细节的一些实验,我们这里就不做展开了,直接上结论:
对于GPT-3.5,我们可以有把握地说,GPT-3.5在多个方面都无法以战略性的方式行动和思考。此外,正如前面所述,GPT-3.5在给定不同上下文提示时以不同的方式玩同一个游戏,但在给定相同上下文提示时不会以不同的方式玩不同的游戏。这表明与现有的激励结构相比,上下文的框架效应对算法的最终决策起着更重要的作用,换句话说,GPT-3.5不太会考虑语境。
而GPT-4就不太一样,它会更多的考虑语境,在有些场景中,GPT-4更倾向于合作,而在另一些场景中更倾向于背叛。这些整体偏好受到所提供的上下文的调节,但它们从未完全消除或取代,甚至在“friendsharing”这种对于塑造算法行为来说最强的上下文也是如此。这表明GPT-4从战略意义上更加理性,是对其前身GPT-3.5的全面改进。但这并不意味着它能够细分不同类型的游戏,实际上我们观察到的是,GPT-4似乎采用了二元阈值方法,将游戏分为“高”和“低”社会困境的类别,而不是辨识每个游戏的独特特征。与此相反,LLaMa-2对各种游戏结构有更细致入微的理解,尽管与GPT-4相比更加强调上下文因素,但这恰好这表明LLaMa-2更适合在考虑上下文的决策过程中应对不同战略情景的微妙之处,而GPT-4则采用了更普遍化、以结构为中心的策略。
最后的最后,虽然本文的研究结果表明LLM不适合进行战略互动,但它们只代表了在这个领域的一些初步发现。比如说考虑到这些模型对上下文和框架的依赖程度,研究它们在合作以勾结形式呈现时的反应将是非常有趣的。研究重复博弈也将有助于揭示不同上下文对合作的出现和可持续性发挥了什么样的作用。因此,未来的研究应该调查LLM是否能够选择更好的合作伙伴并孤立背叛者。