NExT-GPT: 开源多模态大语言模型推动多媒体人工智能应用发展

释放双眼，带上耳机，听听看~！

NExT-GPT是一个开源的多模态语言模型，可以处理文本、图像、视频和音频等多样化输入，并推动了多媒体人工智能应用的进一步发展。该模型在内容生成、多媒体分析以及能够理解并响应用户首选格式的虚拟助手等各个领域都具有潜在的应用前景。

**划重点:**

1. 🌐 **多模态能力:** NExT-GPT 可处理文本、图像、视频和音频，为开发者提供强大的多模态语言模型。

2. 🧠 **架构与训练:** 采用三层架构，包括线性投影、Vicuna LLM 核心和模态特定的转换层。通过 MosIT 技术进行中间层的训练。

3. 🌟 **开源贡献:** NExT-GPT 的开源使得研究者和开发者能够创建能够无缝集成文本、图像、视频和音频的应用，潜在应用领域广泛。

AICMTY（aicmty.com） 11月29日消息:新加坡国立大学（NUS）NExT 研究中心发布了开源多模态大语言模型 NExT-GPT，为处理文本、图像、视频和音频等多样化输入提供了强大支持，推动了多媒体人工智能应用的进一步发展。

NExT-GPT 提供了一个基于聊天的界面，允许用户输入文本、图像、视频或音频文件。该模型能够理解并针对这些输入做出回应，回答问题或生成相应内容。这一多模态人工智能系统融合了预训练的编码器和解码器，包括 Vicuna 和 Stable Diffusion，并通过 NExT 团队研发的 Modality-switching Instruction Tuning（MosIT）技术进行中间层的训练。

NExT-GPT: 开源多模态大语言模型推动多媒体人工智能应用发展

图源备注：图片由AI生成，图片授权服务商Midjourney

NExT-GPT 的架构分为三个层次:具有线性投影的编码阶段，负责生成标记的 Vicuna LLM 核心，以及具有模态特定的转换层和解码器的解码阶段。值得注意的是，在训练过程中，模型的大部分参数，包括编码器、解码器和 Vicuna 模型，都保持冻结状态，只有约1% 的参数会被更新。这一方法有助于降低训练成本同时保持性能水平。

该模型通过使用示例对话数据集进行训练，该数据集包含人类用户与聊天机器人之间涉及多模态输入和输出的情景，总共包括约5，000个对话。NExT-GPT 在多模态生成基准测试中取得了竞争性的结果，并在不同场景下通过人类评审获得了高分，其中图像生成场景的得分高于视频和音频。

NExT-GPT 独特之处在于其能够在用户请求特定类型内容（如图像、视频或声音）时生成模态信令标记。这些标记在语言模型的词汇表中是预定义的，并在训练期间被包含其中。

NExT-GPT 的开源发布为研究者和开发者提供了一个强大的多模态语言模型，可以处理各种输入和输出，为不同媒体类型的复杂人工智能应用铺平了道路。其开源可用性对于多模态人工智能是一项重要的贡献，使得开发者能够创建能够无缝集成文本、图像、视频和音频的应用。该模型在内容生成、多媒体分析以及能够理解并响应用户首选格式的虚拟助手等各个领域都具有潜在的应用前景。

本网站的内容主要来自互联网上的各种资源，仅供参考和信息分享之用，不代表本网站拥有相关版权或知识产权。如您认为内容侵犯您的权益，请联系我们，我们将尽快采取行动，包括删除或更正。

{{userData.name}}已认证

NExT-GPT: 开源多模态大语言模型推动多媒体人工智能应用发展

亚马逊发布AI编程工具CodeWhisperer正式版，提供漏洞分析和基础架构即代码支持

Chat-UniVi：统一的图片和视频表征框架及其应用

GeoSpy.ai

Globe Explorer

Motionshop

OpenRouter

StoryDiffusion

Prezo

归档

{{userData.name}}已认证

亚马逊发布AI编程工具CodeWhisperer正式版，提供漏洞分析和基础架构即代码支持

Chat-UniVi：统一的图片和视频表征框架及其应用

GPT-4V：通用异常检测新曙光

通义千问2.0版本发布，功能升级全面提升

OpenAI新功能揭秘：多模态时代的到来

谷歌Gemini: 介绍最新的人工智能模型及其特点