MMMUs: 专家级多模态AI测试基准发布

释放双眼，带上耳机，听听看~！

最新基准数据集MMMUs针对大学水平多学科问题提供了全面的多模态AI测试，挑战了当前最强大的GPT-4V等模型，展现了其在深度和广度方面的性能。这一基准对当前最先进的GPT-4V等模型提出了挑战，为评估机器在广泛多样的任务上的专家级多模态理解和推理能力提供了全面而复杂的任务。

要点:

最新基准数据集MMMUs针对大学水平多学科问题提供了全面的多模态AI测试，挑战了当前最强大的GPT-4V等模型，展现了其在深度和广度方面的性能。

MMMU包含六个学科的30个科目，涉及艺术与设计、商科、科学、健康与医学、人文与社会科学、技术与工程等领域，共有1.15万个多模态问题，考察了感知、知识和推理等基本技能，为评估专家级AGI提供了全面而复杂的任务。

MMMU在问题设计上注重深度，包含专业领域知识和高级推理，通过涵盖多种图像格式和混合文本图像输入，要求AI模型在理解、记忆、推理等方面具备高级能力，挑战了当前多模态基准的局限性。

AICMTY（aicmty.com）12月1日消息:近日，一项基于大学水平考试的多模态AI测试基准MMMUs发布，旨在评估机器在广泛多样的任务上的专家级多模态理解和推理能力。这一基准对当前最先进的GPT-4V等模型提出挑战，通过涵盖艺术与设计、商科、科学、健康与医学、人文与社会科学、技术与工程等六个学科的30个科目，共有1.15万个问题，考察了感知、知识和推理等基本技能。

MMMUs: 专家级多模态AI测试基准发布

论文地址:https://arxiv.org/abs/2311.16502

项目网站:https://mmmu-benchmark.github.io/

数据集:https://huggingface.co/datasets/MMMU/MMMU

代码:https://github.com/MMMU-Benchmark/MMMU

MMMUs的问题涵盖了大学考试、测验和教科书，由50位来自不同学科的大学生收集，涉及了多种图像格式，从照片和绘画到图表和表格。这使得该基准不仅考察了常识和日常知识，还注重专业领域知识和高级推理。此外，MMMUs具有文本和图像混合的输入，要求AI模型在处理这种混合信息时展现深度学科知识和执行复杂推理的能力。

在实验评估中，MMMUs展现出极大的难度，即使是当前最先进的GPT-4V也仅在55.7%的问题上取得准确答案，表明AI技术在这一领域仍有巨大的改进空间。通过这一基准的构建和评估，研究团队为进一步推动人工智能系统的发展和深入研究提供了有力的工具和参考。

总体而言，MMMUs作为一项全面、具有挑战性的多模态AI测试基准，为评估专家级AGI的发展提供了新的视角和标准。这将有助于推动人工智能领域的发展，引领未来人工智能系统在多学科、多模态任务上取得更为卓越的成就。

本网站的内容主要来自互联网上的各种资源，仅供参考和信息分享之用，不代表本网站拥有相关版权或知识产权。如您认为内容侵犯您的权益，请联系我们，我们将尽快采取行动，包括删除或更正。

{{userData.name}}已认证

MMMUs: 专家级多模态AI测试基准发布

Anthropic可解释性团队发表论文：揭开AI黑箱的方法和意义

通义千问开源全家桶：Qwen-72B发布，性能超越Llama2-70B和商用模型

GeoSpy.ai

Globe Explorer

即梦Dreamina

Luma Dream Machine

Motionshop

StoryDiffusion

归档

{{userData.name}}已认证

Anthropic可解释性团队发表论文：揭开AI黑箱的方法和意义

通义千问开源全家桶：Qwen-72B发布，性能超越Llama2-70B和商用模型

GPT-4V：通用异常检测新曙光

微软发布MathVista基准，评测报告长达112页

MM-Navigator: 经GPT-4V智能代理在iPhone上执行购物任务

MM-Navigator: 通过GPT-4V代理实现智能手机界面导航和购物