“本文正在参加 人工智能创作者扶持计划 ”
欢迎关注我的公众号 [极智视界],获取我的更多经验分享
大家好,我是极智视界,本文介绍一下 GPT4来了,ChatGPT又该升级了,更多的是个人思考。
邀您加入我的知识星球「极智视界」,星球内有超多好玩的项目实战源码下载,链接:t.zsxq.com/0aiNxERDq
从 ChatGPT 发布 (2022年11月30日) 到现在已经差不多三四个月的时间了,实话实说已经火的”一塌糊涂” ,其影响力早已超出了AI领域,甚至似乎要给人工智能带来新一轮的革命。从 ChatGPT 火爆至今,按理来说,我作为一名人工智能领域的创作者,早就应该来 “凑凑热闹”。但考虑到本身我输出的文章更加偏”干货”一些,所以我其实并不太想写一些过于 “花里胡哨” 的东西,所以一直也没太想”蹭蹭” ChatGPT 的热度。
现在热度过了这么久了,我也想可以适当输出一些关于”它”的文章,以佐证我还是一名 AIer。这篇文章其实更加多的会写一些我个人对于 ChatGPT 的思考,特别是针对 GPT4 发布之际,一些新的思考。
正如上周微软德国首席技术官 Andreas Braun 的预告,OpenAI 将在这周发布 GPT-4,现在 GPT-4 也如约而至,考虑到 GPT-3.5 和其的”衍生物” ChatGPT 的火热,GPT-4 的发布也必将再在AI界掀起来新一波的 “腥风血雨” (这有点像新一代 iphone 发布那样)。
对于 GPT-4 的发布,先让咱们来 cc OpenAI 的官网是怎么说的:
We’ve created GPT-4, the latest milestone in OpenAI’s effort in scaling up deep learning. GPT-4 is a large multimodal model (accepting image and text inputs, emitting text outputs) that, while less capable than humans in many real-world scenarios, exhibits human-level performance on various professional and academic benchmarks.
短短的几句介绍里,却有相当炸裂的点:接受图像和文本输入,输出文本输出。这意味着即将打破 ChatGPT text-to-text 纯文本的问答模式,也意味着升级后新版的 ChatGPT 可能会同时支持文本的提问&&图像提问的 多模态方式,这是一种跨越式的进步 (顺便提一句,虽然这在其他多模态大模型中早已司空见惯)。比如我们应该可以直接提供一道数学解三角函数的题,题目可能会包括数学图形关系,这应该也难不倒以GPT-4作为基座进化后的 ChatGPT 了,而这对于现在的 ChatGPT 来说,它其实根本 “看不见” 图像里的表达 (你可以简单理解为:现在的 ChatGPT 只会说话,但是它并没有眼睛)。
另外相比于 GPT-3 或者 GPT-3.5,GPT-4 极大地提升了复杂表述问题、复杂逻辑问题的处理能力,更加特别的是,GPT4 还极大提升了其数学问题的处理能力,它甚至能够很好地处理一些奥数的问题,而数学处理能力在目前的 ChatGPT 里也一直被人诟病。
所以整体来看,GPT4 不只是在”纵向发展”,还在”横向拓展” 。”纵向发展”的意思是它在本身就擅长的纯文本问答中的能力继续加强,包括对复杂表达、复杂逻辑和数学问题处理能力的提升,这是它的 “看家本领” / “本职工作”。在此同时呢,它还带来了新的”技能”,说的通俗一点就是 看图说话的能力,说的专业一点是 图像理解能力。GPT4 迈出的这一步足以看出 OpenAI 或者说 微软(毕竟在围绕投资两轮 OpenAI 后,两家差不多就是一条船上的了)的野心,这明白的再表示:ChatGPT想做一个真正意义上的 “Unified Vision-Language Understanding and Generation” 的大模型。
而这会动了很多人的蛋糕,拿微软本身来说,它也有自身主打 视觉-语言大一统的大模型 BLIP,如果 ChatGPT 的发展在大一统的路上表现地更加好,那 BLIP / BLIP-2 的发展就比较尴尬。按这样的节奏,如果在 GPT-4.5 或者 GPT-5 中推出 “Image Generation” 功能,凭借 ChatGPT 本身大量的活跃用户,那么像扩散模型、国内太乙 (注:这些大模型主打图像生成) 的生存空间又在哪里呢,再如果加上视频理解、视频生成功能呢。
所以如果说 transformer 把视觉-语言进行了大一统,那么按照 ChatGPT 这样的发展,已经不仅仅是视觉-语言任务的统一了,它还要统一模型!
Transformer 打响了视觉-语言大一统的序幕,而或许,ChatGPT 才是真正大一统的到来。
好了,以上分享了 GPT4 来了,ChatGPT 又该升级了,更多的是个人的一些思考。希望我的分享能对你的学习有一点帮助。
【公众号传送】
畅享人工智能的科技魅力。邀请您加入我的知识星球,星球内有丰富的AI技术应用相关技术文章、资源、项目源码,涵盖人脸、检测、分割、多模态、自动驾驶、工业等实用、好玩的项目应用,一定会对你的学习有所帮助。t.zsxq.com/0aiNxERDq