ChatGPT 多模态新增图像和语音功能,开启更多可能性

释放双眼,带上耳机,听听看~!
ChatGPT 新增了图像交互和语音交互功能,为用户提供更直观的交互体验。本文探讨了这些功能在旅行中的应用,以及模型的局限性和可用范围。

一、前言

ChatGPT 多模态新增图像和语音功能,开启更多可能性

9 月 25 日,ChatGPT 多模态增加了新的语音功能图像功能。这些功能提供了一种新的、更直观的界面,允许我们与 ChatGPT 进行语音对话或展示我们正在谈论的内容。

ChatGPT 现在可以看、听、和说话了,而不单单是一个文本驱动的工具了。

正值十一小长假,很多人选择出去旅行。ChatGPT 新推出的这项功能能否用在旅行中呢?一起来看看。

二、图像交互功能

ChatGPT 在 9 月 25 日新推出的这个版本中,添加了图片交互能力。

图像理解由多模态 GPT-3.5 和 GPT-4 提供支持。这些模型将其语言推理技能应用于各种图像,例如照片、屏幕截图以及包含文本和图像的文档。

如何使用呢?

以网页版的 ChatGPT 为例。

ChatGPT 多模态新增图像和语音功能,开启更多可能性

点输入框左侧的「图片」按钮,就可以上传图片。可以上传一张或多张图片。

上传后,针对图片中的内容,输入我们想问的问题即可。例如就像下面这样。

ChatGPT 多模态新增图像和语音功能,开启更多可能性

看看 ChatGPT 的回答。回答得还不错,看来 ChatGPT 对图像内容的理解还是可以的。

ChatGPT 多模态新增图像和语音功能,开启更多可能性

在生活中有哪些应用呢?

比如刚刚上面举的这个例子:景点识别

现在正值十一小长假,很多人外出旅行。

当我们看到一个不知名但很有趣的景点或地标时,可以拍摄照片并展示给 ChatGPT,它可以帮助我们识别并提供相关信息。

如果我们在旅行中遇到技术问题,如相机设置等,也可以向 ChatGPT 展示问题所在,获取技术支持和建议。

再来看几个官方的示例。

ChatGPT 多模态新增图像和语音功能,开启更多可能性

这个例子中上传了两张图,一张是使用说明,另一个是工具箱。然后向 ChatGPT 提问「工具箱中是否有正确的工具」。

另外,如果要聚焦图像的特定部分,还可以使用手机版 ChatGPT 中的绘图工具,圈出某个位置。

ChatGPT 多模态新增图像和语音功能,开启更多可能性

这个例子是询问「如何降低自行车座」。同时使用了 ChatGPT 中的绘图工具,圈出某个位置,然后再进行提问。

ChatGPT 多模态新增图像和语音功能,开启更多可能性

ChatGPT 多模态新增图像和语音功能,开启更多可能性

再比如,在家中拍摄冰箱和食品储藏室的照片,来确定晚餐菜单,并询问详细的食谱。

也可以拍摄数学问题的照片、或者工作中数据的复杂图表,圈出问题,并与 ChatGPT 共同探讨解决方法。

此时脑海中飘过电视上之前经常播的一个广告:哪里不会点哪里~

三、语音交互功能

ChatGPT 的多模态,除了新增了「图像交互功能」外,还增加了「语音交互功能」。

用户可以使用语音与 ChatGPT 进行双向对话。

其实以前也是支持语音的,只不过是仅限于「听」

新的语音功能由新的「text-to-speech」模型驱动,能够从简短的样本语音中生成类似人类的音频。

但语音交互功能目前只在手机端可以使用。

如何使用呢?

在手机端应用中点「设置」→「新功能」,选择加入语音对话。

点击位于主屏幕右上角的耳机按钮,然后从 5 种不同的声音中选择喜欢的声音,就可以开始进行对话了。

语音功能可以用来做什么呢?

比如练习外语口语,让它充当你的外教老师。

再比旅途中与它交谈,让它充当我们的随身导游。

或者也可以用它来为家里小孩讲睡前故事,等等。

四、模型的局限性和风险

  • 用户可能依赖 ChatGPT 处理专业话题,例如研究领域。不鼓励在没有适当验证的情况下使用高风险用例。

  • 模型擅长转录英文文本,但在处理某些其他语言时表现不佳。

五、目前可用范围

  • 目前 ChatGPT 多模态新增的图像和语音功能,只在 Plus 用户企业用户下可以使用。开发者和其他用户群体将在此后不久获得这些功能。

  • 另外,语音功能只在 iOS 和 Android 上可以使用,而图像功能在网页和手机上均可使用。

六、结束语

随着技术的不断进步,我们正见证着人工智能领域的一次次重大突破。ChatGPT 的多模态功能,不仅为我们提供了与机器交流的新方式,还为我们打开了无尽的可能性。

通过语音、图像和文字的结合,我们可以更加直观、高效地与 AI 助手互动,从而更好地满足我们的日常需求。

正如 OpenAI 所展示的,未来的 AI 将不仅仅是文字和代码,而是一个能「看见」、「听到」并「说话」的实体。

关于 ChatGPT 多模态的图片功能和语音功能,感兴趣的可以移步官方进一步了解:

openai.com/blog/chatgp…

本网站的内容主要来自互联网上的各种资源,仅供参考和信息分享之用,不代表本网站拥有相关版权或知识产权。如您认为内容侵犯您的权益,请联系我们,我们将尽快采取行动,包括删除或更正。
AI教程

如何运用 Qwen-7B-Chat 大模型进行实时天气状况查询

2023-11-21 11:52:00

AI教程

免费使用GPT-4的网站推荐

2023-11-21 12:01:14

个人中心
购物车
优惠劵
今日签到
有新私信 私信列表
搜索