众所周知,ChatGPT三月推出了GPT-4模型,并且号称在GPT-3.5模型基础上大幅提升了逻辑推理能力。
这里我准备用几道小学数学题来考一考ChatGPT的GPT-4模型,看看ChatGPT在数学应用题方面的理解能力到底如何。
下面三道数学应用题是我六年级的儿子上个月考的,在将问题发给ChatGPT前,大家不妨先自己试试做一下。
- 眼厂共有工人48人,每位工人每天能生产镜片 40片或镜架 28 副怎样分配工人能使一天生产的镜片和镜架配套?
- 如果汽车以每小时 40 千米的速度从甲地开往乙地, 正好在预定时间内到达,实际上汽车行驶了 3 小时后,速度减慢为 30 千米/小时,因此比预定时间迟到1小时.求甲乙两地的距离
- 小明与小颖去看望李老师,李老师用一种特殊的方式给他们分糖。李老师先拿给小明一块,然后把糖盒里所剩糖的1/7给他,再拿给小颖2块,又把糖盒里所剩的1/7给她,这样两人得到的糖块数相同。李老师的糖盒中原来有多少块糖?
怎么样,是不是超级简单,毕竟是小学数学题啊。
接下来我们将题目输入给ChatGPT看看他如何回答?
首先将模型调整到GPT-4.
然后输入我们的问题:
我:眼厂共有工人48人,每位工人每天能生产镜片 40片或镜架 28 副怎样分配工人能使一天生产的镜片和镜架配套?
ChatGPT:为了使一天生产的镜片和镜架配套,我们需要找到一个合适的镜片和镜架的生产比例,以便镜片和镜架的数量相等。我们可以设置一个方程来解决这个问题:
令 x 为生产镜片的工人数量,那么生产镜架的工人数量为 (48 – x)。每位生产镜片的工人每天能生产40片,每位生产镜架的工人每天能生产28副。
镜片生产数量 = 40x 镜架生产数量 = 28(48 - x)
由于镜片和镜架数量需要相等,我们可以建立如下方程:
40x = 28(48 - x)
解这个方程:
40x = 28 * 48 - 28x 68x = 28 * 48 x = (28 * 48) / 68 x ≈ 19.76
由于工人数量必须是整数,我们可以尝试取x的最接近整数值,即 20。当 x = 20 时,镜片生产的工人数量为20人,镜架生产的工人数量为 48 – 20 = 28人。
验证分配是否正确:
镜片生产数量 = 40 * 20 = 800 镜架生产数量 = 28 * 28 = 784
虽然镜片和镜架的数量略有不同,但在48人的限制下,这是一个相对合适的分配。所以,可以将20名工人分配到镜片生产,28名工人分配到镜架生产,以使得一天生产的镜片和镜架尽可能配套。
GPT-4的回答看着还是有模有样的,逻辑分析条理清晰。
他成功的理解了眼镜架和眼镜片要配套的语义。
然而这里他没有分析出一个常识问题,即:一个镜架要配置两个镜片。
所以他建立的方程
40x = 28(48 – x)
是不成立的,镜架生产数量必须乘以2才能和镜片生产数量相等。
也就是
40x = 28(48 – x)*2
这个题目我儿子也犯了同样的错误,没解出来,那我们就稍微给ChatGPT一下提示吧。
我:你犯个错误,1个镜架需要配2个镜片
ChatGPT:抱歉,我没有注意到这个细节。既然1个镜架需要配2个镜片,我们需要重新考虑工人分配。我们可以设置一个新的方程来解决这个问题:
令 x 为生产镜片的工人数量,那么生产镜架的工人数量为 (48 – x)。每位生产镜片的工人每天能生产40片,每位生产镜架的工人每天能生产28副。
镜片生产数量 = 40x 镜架生产数量 = 28(48 - x)
由于需要2个镜片配1个镜架,我们可以建立如下方程:
40x = 2 * 28(48 - x)
解这个方程:
40x = 56(48 - x) 40x = 56 * 48 - 56x 96x = 56 * 48 x = (56 * 48) / 96 x = 28
所以,我们可以将28名工人分配到镜片生产,剩余20名工人分配到镜架生产。
验证分配是否正确:
镜片生产数量 = 40 * 28 = 1120 镜架生产数量 = 28 * 20 = 560
现在,镜片和镜架的数量满足 2:1 的比例,即每个镜架有两个镜片。所以,将28名工人分配到镜片生产,20名工人分配到镜架生产,可以使一天生产的镜片和镜架配套。
这个解答就堪称完美了,ChatGPT立即读懂了我的提示,给出了正确的答题过程。
给GPT-4模型点个赞!
下面来试试第二个题:
我:如果汽车以每小时 40 千米的速度从甲地开往乙地, 正好在预定时间内到达,实际上汽车行驶了 3 小时后,速度减慢为 30 千米/小时,因此比预定时间迟到1小时.求甲乙两地的距离
ChatGPT:设甲乙两地的距离为 x 千米,预定时间为 t 小时。那么根据题目描述,我们有:
1.在预定时间内,汽车以每小时40千米的速度行驶,所以行驶距离为 40t 千米。即 40t = x。
2.实际上,汽车前3小时以每小时40千米的速度行驶,之后以每小时30千米的速度行驶,总行驶时间比预定时间多1小时。即:
40 * 3 + 30 * (t - 3) = x 40 * 3 + 30 * (t - 3) = 40t
解这个方程:
120 + 30t - 90 = 40t 30 = 10t t = 3
将 t 带入第一个方程:
40t = x 40 * 3 = x x = 120
所以,甲乙两地的距离为 120 千米。
GPT-4模型的这个回答,对题目的解读是正确的,他利用两地距离不会发生变化这个点来列出方程。
在逻辑上是没有任何问题的。
但是这句正确的解读:
“实际上,汽车前3小时以每小时40千米的速度行驶,之后以每小时30千米的速度行驶,总行驶时间比预定时间多1小时”
在转换成方程时,他却漏了”总行驶时间比预定时间多1小时“的处理。
即汽车实际行驶过程的总距离是
40 * 3 + 30 * (t + 1 – 3)
而非
40 * 3 + 30 * (t – 3)
因为实际情况晚到了1小时,所以行驶总时间是”t+1″。
那么我尝试着再给他一些提示:
我:减速后导致”总行驶时间比预定时间多1小时”,在你的方程里没有得到体现
ChatGPT:抱歉,我犯了一个错误。根据题目描述,我们应该建立以下方程:
设甲乙两地的距离为 x 千米,预定时间为 t 小时。那么根据题目描述,我们有:
1.在预定时间内,汽车以每小时40千米的速度行驶,所以行驶距离为 40t 千米。即 40t = x。2.实际上,汽车前3小时以每小时40千米的速度行驶,之后以每小时30千米的速度行驶,总行驶时间比预定时间多1小时。即:
40 * 3 + 30 * (t + 1 - 3) = x 40 * 3 + 30 * (t - 2) = 40t
解这个方程:
120 + 30t - 60 = 40t 60 = 10t t = 6
将 t 带入第一个方程:
40t = x 40 * 6 = x x = 240
所以,甲乙两地的距离为 240 千米。
这一次GPT-4模型又正确的理解了我的提示,给出了完美的解答过程
这确实让我有点惊叹GPT-4的语义分析和逻辑推理能力了。
通过以上测试,我们可以看到,GPT-4在小学数学应用题方面的能力虽然不是那么完美,做题过程中需要我们给出一些提示才能得到最终正确的答案。
但是,GPT-4展示出来的语义分析和逻辑推理能力还是让人眼前一亮,比起以前那些人工智障聊天机器人,GPT-4可以称的上是真正的人工智能了。
而且未来随着自然语言处理技术的不断发展,我们相信ChatGPT在数学领域的应用能力也将不断提升,或许GPT-5出来就可以具备一次性完美解决问题的能力。