北大微软亚洲研究院发布首个多轮多模态PPT任务完成基准PPTC GPT-4正确率仅6%

AI资讯
23年11月8日
编辑

站长之家

释放双眼，带上耳机，听听看~！

北大和微软亚洲研究院发布了首个多轮多模态PPT任务完成基准PPTC，评估大型语言模型在复杂多模态环境中的性能。评估结果显示GPT-4在创建新PPT文档任务中表现良好，但仍面临挑战。

要点:

1. 北大和微软亚洲研究院的研究人员提出了首个多轮多模态PPT任务完成基准PPTC，以评估大型语言模型在复杂多模态环境中的性能。

2. 评估表明，GPT-4是在创建新PPT文档任务中表现最强的模型，但仍然存在挑战，如错误累积、处理长PPT模板的能力差，以及多模态指令的复杂性。

3. 进一步的算法和方法如计划算法和API选择算法可以提高大模型在PPTC上的性能，但思维树等方法并没有显著改进性能。

AICMTY（aicmty.com）11月7日消息:北大和微软亚洲研究院的研究人员提出了一项新的评估基准PPTC，旨在评估大型语言模型在复杂多轮多模态PPT任务中的表现。

他们通过创建包含数百个多模态指令的数据集，挑战大模型在多轮人机对话中生成PPT文档的能力。结果显示，GPT-4在创建新PPT文档任务中表现良好，达到了75%的轮次层面正确率，但仍然面临三个主要挑战。

北大微软亚洲研究院发布首个多轮多模态PPT任务完成基准PPTC GPT-4正确率仅6%

项目地址:https://github.com/gydpku/PPTC

首先，错误累积导致大模型在单元层面的表现不佳。其次，大模型处理长PPT模板的能力有限，导致编辑任务的错误。最后，多模态指令增加了任务的复杂性，特别是涉及到空间位置操作的指令。

研究人员还尝试了不同的算法和方法，如计划算法和API选择算法，以提高性能，但发现思维树等方法并没有明显改进性能。这项研究为理解大型语言模型在多模态环境中的表现提供了有益的见解，同时也提出了未来的挑战和改进方向。

本网站的内容主要来自互联网上的各种资源，仅供参考和信息分享之用，不代表本网站拥有相关版权或知识产权。如您认为内容侵犯您的权益，请联系我们，我们将尽快采取行动，包括删除或更正。

{{userData.name}}已认证

北大微软亚洲研究院发布首个多轮多模态PPT任务完成基准PPTC GPT-4正确率仅6%

寒武纪与百川智能合作完成大模型适配

OpenAI发布全新一致性解码器和Whisper v3语音识别模型，极大提升Stable Diffusion性能

GeoSpy.ai

Globe Explorer

即梦Dreamina

Luma Dream Machine

Motionshop

Kling AI | Sora-Like Video Model

归档

{{userData.name}}已认证

寒武纪与百川智能合作完成大模型适配

OpenAI发布全新一致性解码器和Whisper v3语音识别模型，极大提升Stable Diffusion性能

GPT-4完成正确率仅6%，北大等提出首个“多轮、多模态”PPT任务完成基准PPTC

GPT-4完成正确率仅6%！北大等提出首个「多轮、多模态」PPT任务完成基准PPTC

GPT-4的新突破：通过复述问题提高回答准确率

Vicuna Makers新型小型语言模型LLM与GPT-4性能媲美