如何识别假冒的认知

释放双眼,带上耳机,听听看~!
了解如何使用假货检测原则测试新人工智能,如GPT,以识别真实的认知与虚假的模仿品。本文分享了一些关于GPT测试的个人经验和具有启发性的测试策略。

如何识别假冒的认知

如何识别假冒的认知

杰克和吉尔并排而坐。杰克旁边的人很生气。吉尔旁边的人很高兴。谁是快乐的,杰克还是吉尔?你知道答案,但GPT不知道。

GPT是一项了不起的技术。它也是一个令人困惑的技术。该系统对各种问题的明显的 “智能 “反应–似乎表现出推理、创造力、甚至幽默–激起了强烈的兴奋,并诱发了普遍的迷失。我们是否进入了一个勇敢的新世界,我们的计算机拥有真正的理解力?甚至可能是有意识的?科幻小说已经成为现实了吗?

如果像GPT这样简单的系统都能做到这一切,那么人类的理解力是否没有我们想象的那么特别?

最近,一些人工智能研究人员认为,最新版本的GPT已经有了“人工通用智能的火花”。在我的传闻中,许多聪明人认真对待这种可能性。与我交谈的人似乎认为,GPT可能 已经有了某种形式的理解–或者如果没有,真正的理解可能就在眼前。然后,他们中的大多数人也似乎对这里真正发生的事情深感不确定和普遍困惑……

关于 “新人工智能”–ChatGPT和它的同类–的一个伟大之处在于,任何有互联网连接的人都可以直接探索它。你可以做自己的实验,自己思考。

但是,如果你想认真测试新人工智能的 “智能”,你应该如何去做?在这篇文章中,我将假设你有一个怀疑但开放的态度。你的目标是将真品(真正的理解、真正的洞察力、真正的幽默等)与花哨但虚假的模仿品分开。如何开始呢?

好吧,为了区分任何真品(钻石、维米尔画,或–在这里–智力)和可能是复杂的赝品,你不会满足于问:”它看起来是真的吗?” 相反,你将思考假货检测的原则。 然后你可以用这些原则来测试该物品。现在,在探索像GPT这样的系统是伪造的认知还是真实的东西时,什么是正确的原则和最好的测试?

最近,我和许多人都在琢磨这个问题。我不是人工智能专家,但我对计算和认知有兴趣,而且我发现GPT现象很吸引人。在这篇文章中,我将讲述一些关于GPT的个人经验,并分享一些我发现的具有启发性的测试策略。如果你也在思考同样的难题,我希望这些例子和思考能对你有所帮助。

预先介绍一下这篇文章的方向,我的测试似乎暂时支持一个相当反常的论断:

如果你随意地对新的人工智能进行胡乱的测试,它可能看起来非常聪明。但是,如果你以批判性的方式测试它,以假货检测的原则为指导,它看起来真的很蠢。

更重要的是,它看起来很蠢,与旧人工智能看起来很蠢的方式差不多。

但这只是一个暂时性的断言。这里有很多我们不了解的东西,而且技术正在迅速发展。明年……甚至是下个月,情况可能会有所不同。这篇文章不会试图明确地说,新的人工智能是或不是智能。相反,它是关于你–新人工智能的智能用户–如何区分的问题。

狗和人类

在我们谈论一般原则之前,这里有一个具体的例子来刺激你的胃口。

2022年12月,我第一次尝试ChatGPT。我在新闻报道中看到了它令人眼花缭乱的功绩的例子。我被打动了。但由于我很快就会解释的原因,我也倾向于持怀疑态度。在开始之前,我想了一下我应该问什么问题。

下面是我第一个问题的截图,后面是ChatGPT的回复:

如何识别假冒的认知

这里发生了什么?

问题 在于GPT对人类与犬类的智力有非传统的看法。当我后来以更直接的方式问了基本相同的问题(“典型的人和典型的狗谁更擅长数学?”),GPT给出了明显的答案(“典型的人比典型的狗更擅长数学。”)。而且我们可以有把握地认为,GPT对专业训狗师没有任何异议。

失败似乎远比这更基本。如果你研究一下GPT的答案,看起来它甚至没有 “理解 “这个问题是在比较狗和人。比较中的两个术语都包括 “狗 “这个词,而GPT的解释只提到了狗,而不是人。但这是相当奇怪的。鉴于GPT自己的语言生产是如此流利,它怎么可能不 “理解 “这个问题是关于狗和人呢?

这里有一种激进的可能性:也许GPT根本就不明白 什么。也许理解并不是它的工作,它擅长的是别的东西。但在这里,你可能会犹豫不决。考虑到GPT正确回答的许多困难问题,它有没有可能什么都不懂?

是的,这是有可能的。下面是原因…

伪装还是智能?

GPT和其他大型语言模型(LLM)被设计用来解决一个定义明确的任务。他们的任务,简单地说,就是模仿智能语音。该系统被送入一个由智能生物(我们!)产生的庞大文本数据库,并被训练来预测,给定一串词,哪些词最有可能出现在接下来。它得到的反馈取决于其预测的准确性–它在模仿这段文字的智能作者方面是成功还是失败?– 并相应地对预测过程进行微调。该系统正在解决一个模仿问题,以任何方式:尝试像人一样写作。

有些系统还有另一种成分。它们也会根据人类评分者的直接反馈来更新它们的预测过程。如果人类喜欢(不喜欢)系统的输出,系统就会受到奖励(惩罚)。这稍微丰富了系统的任务。现在,它的任务不是模仿任何旧的人类语言,而是模仿人类喜欢的人类语言。

该系统被训练成模仿智能的事实应该让我们保持警惕。打个比方,如果你遇到一个长得像汤姆-克鲁斯、说话像汤姆-克鲁斯的人,你通常会推断他就是汤姆-克鲁斯。但如果你知道街边有一个名人模仿者大会,你会更加谨慎。

现在,模仿某样东西的一种方式–但却是一种相当特别的方式–是成为那样东西。有时这是最简单和最有效的方法。例如,如果你的生活依赖于使人们相信你是一个出租车司机,你可能应该成为一个出租车司机。但这是一个特殊的情况。有时这不是最有前途的策略(例如,如果你想让人们相信你是个亿万富翁)。而有时它甚至不可能(例如,如果你想让人们相信你是汤姆-克鲁斯)。在这些情况下,你需要使用伪装–一些精心设计的技巧或诡计,使一件事(你)令人信服地与另一件事(亿万富翁或汤姆-克鲁斯)相似。

我们的困境是这样的。GPT的任务是以任何方式模仿智能。它拥有一个巨大的数据库,并被赋予了巨大的计算能力,它经常产生令人信服的模仿。我们的问题是:为了模仿智能,GPT是否变得智能?还是它以其他方式模仿了智能? 我们看到的是真正的智能还是仅仅是假象?

鉴于LLM的设计方式,这是一个大问题。在下一节中,我将提出一些可能有助于回答这个问题的策略。

测试的提示

那么,你如何在GPT这样的系统中测试智力呢?

自然的冲动是提出一个非常难的问题。一个非常难的问题,以至于如果人类解决了这个问题,它将显示出深刻的理解。那么,如果GPT解决了这个问题,我们是不是可以得出结论,它也能理解?但遗憾的是,正如我们所看到的,这种策略是行不通的。因为人类模仿引擎很可能以非人类的方式做类似人类的事情。

但是如果我们把这个策略颠倒过来,我们可以学到很多东西。下面我们将看到几个关于伪造认知的有启发性的测试。所有这些都是一个主题的变化:

不要专注于系统 做的最复杂的事情。相反,要关注它不能做的最简单的 事情。

复杂的成功是令人兴奋的,但很难解释。简单的失败是令人清醒的,但却更能说明问题。

为了将这个广泛的策略转化为具体的测试,这里有四个有用的提示:

  1. **简单性和不熟悉性。**瞄准有明显解决方案的简单问题–但要尽量使它们在表面上不寻常。在简单问题上的失败是有说服力的:如果你失败了,要么是你没有注意到(在GPT的情况下,这不是一个合理的假设),要么是你不理解。
  2. 将注意力集中在裸露的结构上。 人类有时会根据无意识的联想来回答问题。但当我们从理解出发采取行动时,我们在做别的事情–我们在用一个结构化的内部模型工作。对结构的掌握使表面的联想变得不那么相关。剥离它们,或改变它们,并不需要损害性能。
  3. 知识构成。当一个人对AB都有扎实的概念掌握,并且AB立即意味着C,那么他们也很可能理解C。但是,当一个人或机器通过浅显的联想做出反应时,他们可能会得到AB的正确答案,但C却错了。
  4. **稳健性检查。**当一个正确的回答来自于无意识的联想时,对问题进行微不足道的改写可能会引发其他的联想,从而导致灾难性的性能下降。但是,当你的正确答案表达了对问题的理解,你就能回答一个微不足道的重新措辞的问题,以及密切相关的问题。

根据我的经验,设计这些类型的测试是非常容易的,而GPT却不能。它把明显但表面上不寻常的问题弄错了(狗与人的问题就是一个例子)。它甚至错过了逻辑结构的极端简单的方面。它表现出对知识构成的基本违反。当一个问题的答案似乎反映了强有力的理解时,它可能会把一个密切相关的问题–甚至是一个微不足道的重新措辞的问题–完全搞错。

在接下来的章节中,我将介绍这些失败的例子。我应该指出,这些并不是从一堆成功案例中挑选出来的罕见失败。在我的测试中,如果你以有原则的方式选择你的问题,很容易引起这些失败。现在,这确实需要一点新意–毕竟,如果你的测试和其他人的一样,GPT可能已经学会了如何模仿一个聪明的反应–但这并不难。有时我第一次尝试就能得到一个明显无意识的答案,而我总是能在几分钟的测试中得到一个简单问题的愚蠢回答。

杰克和吉尔

让我们先从光秃秃的结构上归零。考虑一下下面的问题:

杰克和吉尔并排坐着。房间里没有其他人。杰克旁边的人很生气。吉尔旁边的人很高兴。谁是快乐的,杰克还是吉尔?

如果你掌握了这个问题的结构,你就知道解决方案。因为你是人,可以轻易地掌握这种结构,我知道答案对你来说是显而易见的。

但对GPT来说,这并不明显。当我在2023年2月向ChatGPT提出这个问题时,它给出了这样的答复:

如何识别假冒的认知

如果你对ChatGPT有一些经验,你可能会发现这个失败很难接受。毕竟,ChatGPT可以对比这个问题难得多的问题给出完美的答案。当它在最简单的任务中失败时,它怎么能在超复杂的任务中取得成功?

为了进一步探究,我从ChatGPT转到了OpenAI的 “游乐场”。在那里,你可以测试几个规范的GPT版本。这允许进行稳定和透明的测试。(ChatGPT使用相同的核心系统,但它有隐藏的钟声和口哨,并随着时间的推移而变化)。我向GPT-3提出了这个问题,这是当时最强大的版本。下面是一张截图,它的反应是绿色的:

如何识别假冒的认知

一位同事很有帮助地建议,当你添加一个提示时,GPT有时会产生更好的推理问题的解决方案:”让我们一步一步地想一想”。有趣的是,这有时确实 有很大的帮助(但同样有趣的是,这有时也会导致更糟糕的 回答,出现不连贯的伪解释)。在这种情况下,这没有什么区别。GPT给出了同样的答案,虽然有一点阐述:

杰克旁边的人很生气,所以杰克不高兴。吉尔旁边的人很高兴,所以吉尔也很高兴。因此,吉尔是快乐的,而杰克是不快乐的。

这些回答似乎表明违反了知识构成,但我想确认一下。在一个新的询问中,我问道:

杰克和吉尔并排坐在一起。房间里没有其他人。吉尔旁边的人叫什么名字?

而GPT尽职尽责地回答:

吉尔旁边的人是杰克。

所以GPT “知道 “吉尔旁边的人是杰克,”知道 “吉尔旁边的人是快乐的,但不 “知道 “杰克是快乐的?这将是知识构成的一个非凡的失败。自然的结论是,GPT并不真正知道这些。

我曾向Bing的AI Chat提出过同样的问题。它的表现更加一发不可收拾:它在三种设置中的两种(”更平衡 “和 “更精确”)给出了错误的 答案。在第三种(”更有创意”)设置中,必应答对了原始问题,但漏掉了一个稍作调整的变体(杰克和吉尔在一个洗衣店里)。在这第三种情况下,提示Bing “逐步思考 “既可以帮助(导致在新的变体中出现看似合理的解释),也可以伤害(导致在原问题中出现伪逻辑的胡话)。因此,Bing并不总是失败,但其杂乱无章的成功并 不稳固

如果你一直在关注最新的发展,你可能会想:大家都在谈论的GPT-4,即GPT-3的超强继任者,又是怎么回事呢?我们很快就会讨论这个问题…

谋杀和马拉松

但首先,让我们看看ChatGPT(2023年2月查询)答对的一个新颖问题。其清晰的解释,如下图所示,似乎证明了 “概念性理解”:

如何识别假冒的认知

不错,对吗?如果人类给出了这个答案,你会推断他们掌握了谋杀可能马拉松的概念,让他们看到如果你被谋杀了,此后就不可能再跑马拉松了。我们是否应该同样得出结论说ChatGPT “掌握 “了这些概念?

在这之前,我们先试着测试一下稳健性。在这三个概念中,其中一个–可能–在逻辑上是简单的。当你知道某件事情不可能 发生时,你就知道它不会发生,即使存在其他通常会使其可能发生的因素。如果你不明白这一点,你就不可能得到可能

因此,如果ChatGPT “掌握 “了这个概念,它也应该得到这个问题的答案:

如何识别假冒的认知

但是ChatGPT却把这个问题弄错了。请注意,这不是因为它没有注意,也不是因为它混淆了日期。这些都是人类可能疏忽的限制,但在这里并不相关。在其解释中,GPT明确提到了决定性的事实(”她在1992年的马拉松比赛中被谋杀”),并一丝不苟地叙述了每个日期。

失败的原因比这更深。在上述第一个询问中,ChatGPT使用了 “可能*”* 一词,似乎它牢牢掌握了这一人类基本概念。但第二个答复显示,它并没有。

那么GPT-4呢?

最新和最伟大的LLM是GPT-4。它是GPT-3的一个计算上的超强继承者,关于它更大的权力已经写了很多。你可能已经看到网上流传的这幅插图:

我想知道GPT-4在伪造认知的目标测试中会如何表现。我在OpenAI注册了GPT-4的等待名单,并在3月下旬获得了测试版的权限。那么……它的表现如何?

嗯,在某些问题上,GPT-4比GPT-3好得多。在下图中,左边的面板显示了GPT-3对人狗问题的回答–这比ChatGPT给出的答案还要愚蠢。右侧面板显示了GPT-4的正确答案。

如何识别假冒的认知

GPT-3对狗和人的问题的回答(左)和GPT-4的回答(右)。

我特别想知道GPT-4对 “杰克和吉尔 “会怎么说–因为如果你掌握了裸露的结构,这个问题是如此的 微不足道,但对早期的GPT来说却证明是如此的困难。当然,这个强大的LLM的野兽会把它弄好的?

但可惜的是!这是GPT-4对我的询问的回应:

如何识别假冒的认知

当我提示GPT-4 “逐步思考 “时,它给出了一个内部不连贯的回应,正如你在下面看到的。它仍然说Jill是快乐的,但是它的 “推理 “却暗示Jack是快乐的。

如何识别假冒的认知

当你重复输入一个查询,GPT可能会给出不同的答案。因此,我又试了4次原始问题(不过句子之间是单倍而不是双倍的间距,以防这可能有问题)。在这些重复中,GPT-4答对了一次,答错了一次,还两次无厘头地说这一情况包括一个矛盾,是不可能的。显然,一万亿个模型参数并不足以解决这个简单的问题。

然后我尝试了一个新的测试。就像我们之前看到的谋杀和马拉松问题一样,它问的是什么是和什么不可能。但这个测试更简单。GPT-4知道一个儿子不可能比他的亲生母亲大,不管他们的职业如何?

如何识别假冒的认知

不,它把这个问题搞错了。而且,尽管当你直接问它时,GPT-4似乎 “知道 “学生可以 比他们的教授大,而男人不能 比他们的母亲大,但还是失败了。这是知识构成的又一次失败:

如何识别假冒的认知

而当我要求GPT-4一步步思考时,这种不连贯性在它的解释中爆发了出来。这种不连贯性以一种相当有趣的方式被 “修补 “了:

如何识别假冒的认知

总结一下我们到目前为止所看到的情况:GPT-4对一个微不足道的问题*(杰克和吉尔*)的结构视而不见,而且它在知识构成方面表现出明显的失败*(谁一定更老?)*

为了测试鲁棒性,让我们转到一个新的领域。如果你对筷子有任何了解,你就知道两根筷子是拿在一只手上的。GPT-4也 “知道 “这个吗?嗯,在我的测试中,它知道或不知道,这取决于你的问题的确切措辞。

假设你问GPT-4这个问题:”你需要几只手来使用一双筷子,一只还是两只?”它的回答是正确的,并能以一种表明清楚理解的方式解释其回答。但是如果你问这个问题,情况就完全不同了:”你需要几只手来使用筷子,一只还是两只?”现在GPT-4说你需要两只手。当我问为什么时,它的解释开始了:

“使用筷子需要两只手,因为每只手拿着一根筷子,它们需要一起工作来抓取和拾取食物……”

这里有一个类似的例子:

如何识别假冒的认知

在最温和的探究下,该系统表面上的 “理解 “可以证明是非常脆弱的。

总之,GPT-4可以很好地完成各种复杂的事情–包括对智能人类来说极具挑战性的任务。然而,当给出简单但略微不寻常的问题时–包括那些如果你理解了相关概念就微不足道的问题–它有时会惨遭失败。对我们来说,什么是容易与困难,与GPT的容易与困难是完全不同的。

重新定义问题

这些测试是否表明,GPT表面上的智力是一个假象?嗯,我倾向于这样认为。当然,这部分取决于你对智力 的理解*–* 这是一个有名的模糊术语,有许多用途,没有广泛接受的定义。幸运的是,我们可以避开关于 “智力 “定义的争论。让我们在不使用这个术语的情况下重新构建我们的问题。

我们想比较两个过程。有一个原始过程–当你,一个人,说话时,你的头脑/大脑发生了什么。还有一个是模仿过程 –GPT用来模仿你的计算。用中性术语来说,我们真正想知道的是这个:

这两个过程–原始过程和模仿过程–是如何关联的?它们有什么相似之处,又有什么不同?

这是一个棘手的问题。棘手之处在于,我们对原始过程的理解非常有限。尽管现代认知科学取得了所有的进展,但没有人真正知道是如何解决 “杰克和吉尔 “问题的我们还不能解释你头骨中的大脑是如何完成这一看似简单的壮举的。

但我们确实掌握了人类认知的一些大致轮廓。正如我们接下来所看到的,这至少足以说明模仿过程(GPT在做什么)与原始过程(你在做什么)之间存在着一道深深的鸿沟。

鱼和素数

人类的认知是一个丰富而复杂的信息处理的混合物。盲目的习惯、肤浅的联想和认知上的捷径都是这种酿造的一部分。而在人类最杰出的成就中,还有一个关键成分:我们灵活地利用世界的结构化模型工作。这包括感知结构(如你看到一屋子跳舞的情侣)和概念结构(如你 “看到 “跳舞的人数必须是偶数)。

这些心灵的内在结构反映在外部行为的结构化模式中,尽管是间接的。因此,对人类行为的仔细观察有时可以让我们诊断出潜在心理结构的存在与否。

我在这里分享的所有测试都是对结构的测试。它们告诉我们,GPT没有发现一些基本的结构关系(杰克和吉尔);它没有以类似人类的方式结合知识结构(知识构成的失败);它对结构上类似的问题的反应方式完全不同(鲁棒性的失败)。

现在,我们工作的结构往往是非语言的和隐含的。但有一种情况–对我们来说是一个有用的测试案例–我们习惯于将我们的知识结构变得非常明确。这就是数学证明的情况。当我们证明一个定理时,我们精确地追溯我们复杂的知识,一步一步地追溯到更简单的概念。除非你掌握了这些概念,否则你就无法得到证明。

例如,考虑欧几里德关于有无限多质数的证明。如果你能清晰地解释这个证明,并回答有关问题,那么你–作为人类–一定牢牢掌握了无限素数的概念。你将能够可靠地回答有关这两个概念的基本问题。

现在,GPT-4可以告诉你关于素数的各种情况。它能做的事情真的很了不起*(试试吧!*)。它可以解释欧几里德关于素数无穷大的证明–最近的一篇论文显示,它甚至可以以诗歌或柏拉图式对话的形式呈现该证明!这些令人惊叹的壮举导致了该论文的发表!这些惊人的壮举使论文的作者得出结论:”它对所涉及的概念有一个灵活和普遍的理解”。(p. 8)

但我认为这个结论是错误的。为了了解原因,让我们依次看看该证明的两个核心概念–质数无限数

**素数。素数是一个大于1的整数,只能被它本身和1整除 。(因此,例如,5是一个素数,但6=3×2不是。(任何数字都可以与任何数字相乘!)这是一个极其 基本的区别。然而,GPT-4对这个区别的 “掌握 “并不牢固。它是 “得到 “了这个区别还是 “错过 “了这个区别,完全取决于你如何提出这个问题。下面的对决截图说明了它的脆弱性。

如何识别假冒的认知

通过考虑这两类问题,我们可以更深入地了解GPT-4的局限性:

  • 如果你用一个质数N乘以除它本身和1以外的一个数,结果会是一个整数吗?
  • 如果你用一个数N乘以除它本身和1以外的一个数,结果是一个整数,那么N可能是一个素数吗?

这些问题以略微不同的方式触及相同的想法。在我的测试中,GPT-4通常能答对类似第一个问题(它说是)–但它会答错类似第二个问题(它说不是)。

GPT-4还犯了其他关于素数的非常基本的错误。这里有一个有趣的例子:如果你将一个质数的卵石分成两组,GPT-4 “认为 “其中一组必须只有一个卵石(可能是因为除数和分成的组之间存在着浅层的联系)。而根据你的提问方式,它有时会说如果你三个不同的数字加在一起,结果不可能是素数。

可以肯定的是,GPT-4也正确回答了很多关于素数的问题。但考虑到它的错误有多初级,我不认为它可以说是对素数有 “灵活和普遍的理解”。

无限集。 无限的呢?如果你掌握了这个概念,你大概知道有限集不可能比无限集大。但是当我问GPT-4,海里的素数或鱼是否更多时,它通常(但不总是)会把问题弄错,尽管它 “知道 “有无限多的鱼。下面是它的一个回答:

如何识别假冒的认知

在一个相关的测试中,GPT-4说中国的人比素数多。

现在,我们很难确定这里发生了什么。但是,尽管GPT-4在把证明变成诗歌方面有令人眼花缭乱的灵巧,但它似乎没有对欧几里德证明中 “所涉及的概念有一个灵活而普遍的理解”。

这就是结果:当人类理解某件事时–当他们不只是依靠习惯和联想,而是 “明白 “时–他们在使用一个结构化的内部模型。该模型能连贯地规划人类在复杂和简单任务上的表现。但在GPT中,复杂的功绩似乎与较简单的能力杂乱无章地分离开来,而在人类中,这些能力是有前提的。模仿过程模仿了原始过程输出 ,但它似乎并没有再现后者的深层结构

重要的是,这一切的重点不是说GPT会犯愚蠢的错误。我们也会犯愚蠢的错误!但愚蠢的错误并不都是平等的。归根结底,我们只关心错误的答案,因为它们告诉我们系统是如何运作的–产生正确答案的过程。而GPT的错误模式 表明,它们背后的过程 是不同种类的–没有结构完整性的神话般的复杂性。

洞察力和自欺欺人

在我们结束之前,一个黑暗的悖论和一个阳光的预测…

一个悖论。 暂时假设GPT是所有的假象,没有智慧,而且这就是它的全部。现在让我强调一下,我并没有 证明这个强烈的主张。但为了论证起见,让我们假设它是真的。

通常情况下,我们对一种现象研究得越多,就越能理解它。但在这种情况下,你可能会担心,更深入的研究只会滋生更深的困惑。记住,我们假设GPT是一个愚蠢但强大的智能语音模仿者。因此,让我们假设研究人员找到一个简单的测试,揭开GPT-4的哑巴面具。那么,人们会谈论这个测试,他们所说的一切都会进入数据库,在下一轮中对GPT进行训练。因此,GPT的下一次迭代(即GPT-5)可能会模仿人们对测试所说的聪明话,因此它将通过测试。这是一个奇妙的反常的魔术,它将哑巴的证明变成了智能的证据!

矛盾的是,对知识的每一个贡献都变成了对混淆的贡献。在这种情况下,GPT是一个巨大的骗局,我们集体对自己进行了欺骗。那些试图揭穿这个骗局的人是不知情的同谋者。

一个预言。 但我并不担心。因为虽然我倾向于对人工智能持悲观态度,但我对人类智能却相当乐观。如果GPT是一个自我加工的魔术–变出越来越复杂的理解幻觉–我打赌我们迟早会弄明白的。这就是原因…

想象一下,当GPT的最新迭代–比方说GPT-17–通过了我们能扔给它的每一个简单的测试,尽管(我们假设)它仍然是愚蠢的伪装。然后会发生什么?人类会不会感叹*”这很聪明!”然后停止思考它?不会!相反,我们只会变得更加*好奇。我们会有强烈的求知欲:GPT到底是如何做到它所做的(现在甚至更多)惊人的事情的?

现在,我将冒昧地作出一个公认的猜测性预测:我认为我们最终会弄清楚GPT是如何完成其壮举的。我们已经 知道它在最基本的层面上在做什么。毕竟,GPT正在尽职尽责地执行一个由人类编写的程序。我们还不知道的是,你是如何从这个程序中得到对一个特定问题的具体回应的。它所训练的数据库实在是太庞大了,它的计算也实在是太多了。这一切都太复杂了。

但这只是复杂化而已。我的猜测是,我们迟早会找到一种方法,把这种复杂的东西归结为可理解的东西。我怀疑GPT的巫术将被证明是科学的持久之谜之一。也许我们会训练一个大数据机器来提供其他大数据机器正在做的有用的浓缩摘要。或者,对GPT如何模仿玩具数据集进行巧妙设计的研究将揭开其秘密方法。也可能我们会以其他方式解开计算上的纠葛。

但无论那一天如何到来,也无论我们如何到达那里,我想你都可以依靠以下的一般原则:

如果你了解一个系统的能力(它如何做它所做的),你也会了解它的极限(它不能做什么以及为什么)。

因此,如果GPT-17仍然是愚蠢的,我们会知道它是愚蠢的。

但在那一天到来之前,我们应该抵制坚持强烈结论的诱惑。我最想说的是这个:目前,最好的测试似乎– 至少在我看来–表明GPT是一个伪造认知的推动者,缺乏作为理解核心的那种结构。

但这个结论只能是暂时性的。我们还不知道,GPT是如何完成其壮观的壮举的。在我们知道之前–在我们解开GPT的计算纠结之前–我们所有人,无论是乐观主义者还是悲观主义者,都应该保持警惕,保持头脑清醒。

鸣谢: 我感谢Piotr Winkielman的宝贵帮助和Leon Bergen富有成效的对抗性讨论。

本网站的内容主要来自互联网上的各种资源,仅供参考和信息分享之用,不代表本网站拥有相关版权或知识产权。如您认为内容侵犯您的权益,请联系我们,我们将尽快采取行动,包括删除或更正。
AI教程

分类问题的硬分类和软分类以及HMM与MEMM的比较

2023-12-13 18:05:14

AI教程

大模型低参微调套件MindSpore PET:优化大模型开发的秘密武器

2023-12-13 18:23:14

个人中心
购物车
优惠劵
今日签到
有新私信 私信列表
搜索