吴恩达：LLMs能否理解世界？探讨大型语言模型的世界理解能力

释放双眼，带上耳机，听听看~！

吴恩达博士探讨了大型语言模型（LLMs）是否能理解世界的问题，对于人工智能系统的世界理解能力进行了深入讨论。

原文链接：zhuanlan.zhihu.com/p/649274642

吴恩达博士在本文中讨论了大型语言模型（LLMs）是否能理解世界的问题。

他指出，目前还没有得到广泛认可的科学测试可以证明一个系统是否能真正理解，这使得“理解”问题成为了哲学问题。然而，对Othello-GPT的研究表明，LLMs已经建立了足够复杂的世界模型，它们确实了解这个世界。虽然哲学很重要，但吴恩达更愿意把时间花在编程上。

吴恩达：LLMs能否理解世界？探讨大型语言模型的世界理解能力

亲爱的朋友们，

大型语言模型 (LLMs) 能理解世界吗？作为一名科学家和工程师，我会避免询问人工智能系统是否“理解”某件事情。对于一个系统是否能真正理解——而不是看起来理解——目前还没有得到广泛认可的科学测试，就像我在此前一封来信中讨论的，目前对于“意识”或“感知”也没有这样的测试。这使得“理解”问题成为了哲学问题，而非科学问题。这一警示的出现让我相信LLMs已经建立了足够复杂的世界模型，我有把握说，它们在某种程度上确实了解这个世界。

对我来说，对Othello-GPT的研究是一个令人信服的证明——LLMs建立了世界模型。也就是说，它们确实了解世界的真实面貌，而不是盲目地鹦鹉学舌。Kenneth Li和他的同事们训练了一种GPT语言模型的变体，该模型是根据Othello的移动序列运行的。Othello是一种棋盘游戏，两名玩家轮流在8×8的网格上放置棋子。例如，一个移动序列可能是d3 c5 f6 f5 e6 e3…，其中每对字符（如d3）对应在棋盘的某个位置放置棋子。

在训练过程中，神经网络只会看到一系列的移动，但这些动作是在正方形、8×8棋盘上的移动的，或游戏规则是什么并未明确告知。在对这类棋的大量数据集进行训练后，神经网络在预测下一步棋可能怎么走方面做得不错。

关键问题是：这个网络是通过建立一个世界模型来做出这些预测的吗？也就是说，它是否发现了一个8×8的棋盘，以及一套特定的棋子放置规则，是这些规则支撑着这些移动吗？开发人员们令人信服地给出了证明。具体来说，给定一个移动序列，网络的隐藏单元激活似乎捕捉到当前棋盘位置的表达以及可用的合法走法。这表明，该网络确实建立了一个世界模型，而不是试图模仿其训练数据的统计数据的“随机鹦鹉”。

虽然这项研究使用了Othello，但我毫不怀疑在人类文本上训练的LLMs也建立了世界模型。LLMs的许多“突发”行为——例如，一个经过微调以遵循英语指令的模型也可以遵循用其他语言编写的指令——似乎很难解释，除非我们将其视为“理解世界”。

长期以来，人工智能一直在与“理解”这个概念作斗争。哲学家John Searle在1980年发表了“中文房间论”。他提出了一个思想实验：想象一下，一个说英语的人独自呆在一个房间里，手里拿着一本操纵符号的规则手册，他能把从门缝里塞进来的纸上写的中文翻译成英文（尽管他自己并不懂中文）。Searle认为电脑就像这个人。它看起来懂中文，但其实不懂。

一个被当做系统回复的反驳观点是，即使“中文房间”场景中没有一个部分能理解中文，但这个人、规则手册、纸张等整个系统都理解中文。同样，我的大脑中没有一个神经元能理解机器学习，但我大脑中包含所有神经元的系统就有可能理解机器学习。在我最近与Geoff Hinton的谈话中，LLMs理解世界的概念是我们双方都同意的一点。

虽然哲学很重要，但我很少撰写关于它的文章，因为类似的争论可能会无休止地爆发，我宁愿把时间花在编程上。我不清楚当代哲学家对LLMs理解世界的看法，但我确信我们生活在一个充满奇迹的时代！好了，我们还是回归编程吧。

请不断学习，吴恩达

本网站的内容主要来自互联网上的各种资源，仅供参考和信息分享之用，不代表本网站拥有相关版权或知识产权。如您认为内容侵犯您的权益，请联系我们，我们将尽快采取行动，包括删除或更正。

{{userData.name}}已认证

吴恩达：LLMs能否理解世界？探讨大型语言模型的世界理解能力

Moonvalley AI 视频生成工具，免费又好用！Moonvalley 如何使用（详细教程）

秋招即将到来，如何利用 ChatGPT 提升面试准备效率？

GeoSpy.ai

Globe Explorer

即梦Dreamina

Luma Dream Machine

Motionshop

Kling AI | Sora-Like Video Model

归档

{{userData.name}}已认证

Moonvalley AI 视频生成工具，免费又好用！Moonvalley 如何使用（详细教程）

秋招即将到来，如何利用 ChatGPT 提升面试准备效率？

基于大型语言模型和知识库的代码审查实践

TransNormerLLM: 一种新的大型语言模型完全抛弃了基于 Softmax 的注意力机制

评估大型语言模型的研究综述：重要性与挑战

解决大模型幻觉问题的RAG增强型聊天机器人