AIGC周报：AI技术前瞻和企业动态

释放双眼，带上耳机，听听看~！

本期AIGC周报将为您带来AI技术前瞻和企业动态，包括VideoChat、ImageBind、OpenAI的新研究以及华为联和港中文提出的新型Prompting，了解AI生成内容的最新发展。

AIGC（AI Generated Content）即人工智能生成内容。近期爆火的 AI 聊天机器人 ChatGPT，以及 Dall·E 2、Stable Diffusion 等文生图模型，都属于 AIGC 的典型案例，它们通过借鉴现有的、人类创造的内容来快速完成内容创作。

“新晋流量”ChatGPT的背后，AIGC是“昙花一现”？还是将引领人工智能进入新的时代？_「AIGC 周报」_将从【技术前瞻】【企业动态】【政策法规】【专家观点】带你快速跟进 AIGC 世界。

01 技术前瞻

VideoChat:：基于聊天的视频理解系统

近日，上海人工智能实验室、香港大学等联合推出了一个端到端、基于聊天的视频理解系统——VideoChat。它通过一个可学习的神经接口整合了视频基础模型和大型语言模型，在时空推理、事件定位和因果关系推理方面表现出色。

此外，研究团队也提出了一个以视频为中心的指令数据集，其中包含数千个视频，配有详细的描述和对话。这一数据集强调了时空推理和因果关系，为训练基于聊天的视频理解系统提供了有价值的资源。

初步的定性实验显示，该系统在各种视频应用领域的潜力，并为未来的研究设定了标准。

参考链接：
arxiv.org/abs/2305.06…

ImageBind：横跨6种模态的开源大模型

日前，Meta公布了名为ImageBind的开源模型，该模型能够同时从文本、图像/视频、音频、深度（3D）、热能（红外辐射）和惯性测量单元（IMU）6种不同的模态中学习。

据介绍，ImageBind还能够超越之前的单一模态模型，具有更好的性能，并能够更好地分析多种形式的信息，它的目标是使机器具备类似于人类的全面理解能力。

参考链接：
arxiv.org/abs/2305.05…

OpenAI新研究：用AI解释A

近日，OpenAI使用GPT-4对GPT-2中307200个神经元进行了解释。从结果来看，绝大多数的解释评分并不高，但有超过1000个神经元的解释得分高于0.8。虽然从目前的结果来看，通过GPT-4解释GPT-2的效果并不完美，但这一阶段性的成果给AI可解释性研究提供了思路。

参考链接：
openai.com/research/la…

类似GPT-4，这个LLM有了多模态能力

近日，为了赋予LLMs多模态能力，，来自中科院、华南理工大学未来技术学院、中国科学院大学的研究团队提出了X-LLM——使用X2L接口将多模态（图像、语音、视频）转换为外语，并将其输入到开源的双语对话语言模型ChatGLM中。

实验表明，X-LLM表现出了优异的多模态聊天能力，有时甚至会在未见过的图像/指令上表现出多模态GPT-4的行为。与GPT-4相比，X-LLM在合成的多模态指令跟随数据集上取得了84.5%的相对得分。

参考链接：
arxiv.org/abs/2305.04…

新型Prompting让大模型推理能力狂升

近日，华为联和港中文提出Progressive-Hint Prompting（PHP），用来模拟人类做题过程。在PHP框架下，LLMs能够利用前几次生成的推理答案作为之后推理的提示，逐步靠近最终的正确答案。

这种PHP与LLMs交互的新方法，具有以下优点：1）PHP在数学推理任务上实现了显著的性能提升，在多个推理基准测试上领先于最先进的结果；2）使用更强大的模型和提示，PHP可以更好地使LLMs受益；3）PHP可以与CoT和SC轻松结合，进一步提高性能。

参考链接：
arxiv.org/abs/2304.09…

02 企业动态

OpenAI将向所有ChatGPT Plus用户开放网络功能和插件

OpenAI发推文称，将在下周向所有ChatGPT Plus用户推出网络浏览和插件，这一举措将允许ChatGPT访问互联网并使用70多个第三方插件。

按照OpenAI的计划，联网和插件等新功能权限开放，共分为3个阶段：Alpha阶段：只有一小部分用户能抢先试用，在这个阶段，OpenAI的主要目标是收集不同群体用户的反馈，不断对新功能进行调整；Beta阶段：向ChatGPT Plus用户开放新功能测试；一般可用阶段：在Beta测试完成后，OpenAI会评估新功能是否能面向所有人推出。如果一切顺利，所有ChatGPT用户都能体验联网和第三方插件。

HuggingFace上线新API，一键控制10万多个AI模型

近日，HuggingFace推出了HuggingFace Transformers Agents，通过这一API，用户可以控制10万多个HuggingFace模型完成各种多模态任务。例如，如果你想让Transformers Agents大声解释图片上描绘了什么内容，它就会尝试理解你的指令，然后将其转化为prompt，并挑选合适的模型、工具来完成你指定的任务。

Claude再升级，上下文窗口扩大为100k

Anthropic推出了100K Context Windows——将Claude的上下文窗口从9k token扩展到了100k，相当于75000个单词。这意味着用户可以提交数百页材料让Claude消化和解释，且对话可以持续数小时甚至数天。现在可以通过Anthropic API访问100K context windows。

谷歌将为AI生成图片内嵌标记，Midjourney等将跟进支持

近日，谷歌在开发者大会上表示，将确保公司的每一张AI生成图片都内嵌标记，这种标记无法被肉眼识别，但能被谷歌搜索引擎等软件读取出来，从而提示用户该图片由AI生成。

此外，谷歌还会提供有关AI生成图片的额外信息来防范诈骗，包括：该图片首次上传至搜索引擎的时间，以及该图片是否曾被新闻网站引用过。未来几个月内，Shutterstock、Midjourney等公司也将支持这种新的标记方法。

Stability AI发布动画生成SDK

近日，为帮助艺术家和开发人员运用最先进的Stable Diffusion模型生成动画，Stability AI发布了Stable Animation SDK。借助这一工具，用户可以使用所有Stable Diffusion模型，包括Stable Diffusion 2.0、Stable Diffusion XL等。

据介绍，目前有三种生成动画的方式：1）文本输入：使用文本形式的prompt，调整各种参数后生成动画，这一功能与之前的Stable Diffusion、Midjourney或DALL-E 2类似；2）文本输入+初始图像输入：用户提供一个初始图像，作为动画的起点，再配合文本prompt，生成最终的动画效果；3）初始视频输入+文本输入：用户提供一个初始视频，以作为动画基础。在通过参数调整与文本prompt指导，最终可输出动画。

Spotify删除数万首AI歌曲

近日，流媒体音乐服务平台Spotify删除了数万首由AI初创公司Boomy生成的歌曲，希望通过加大审查力度来回应日益严重的流量欺诈等问题。最近几个月，AI歌曲在音乐行业大肆泛滥，大量涌入各大流媒体平台。知情人士表示，唱片巨头环球唱片已经向各大流媒体平台发出警告称，他们看到Boomy的歌曲中存在可疑的流量。

360宣布上线“360AI商店”，将集成全球AI工具

近日，360集团创始人周鸿祎宣布上线AI商店。360AI商店作为AI导航，将集成全球AI工具，一方面利用流量优势为研发AI垂直应用的创业公司提供展示窗口，一方面让普通用户使用AI工具更加便捷。目前，360AI商店汇集了AI作图、AI写作、AI音频制作等十余类几百种工具，统一陈列和导航。

科大讯飞：讯飞星火大模型“套壳OpenAI的ChatGPT”是谣言

近日，科大讯飞接受机构调研表示，讯飞星火认知大模型为公司自主研发，使用了海量数据训练，但由于ChatGPT比较火，训练数据中出现了较多OpenAI、ChatGPT等词汇，因而在有些问答中会错误地出现以上信息。网上有谣言说讯飞星火大模型“套壳OpenAI的ChatGPT”既不符合事实，也不符合逻辑：如果是套壳ChatGPT，就不可能出现讯飞星火大模型的响应速度比ChatGPT还快；更不会出现讯飞星火大模型在文本生成、知识问答、数学能力等方面的结果均优于ChatGPT的情况。

三星电子和Naver拟联手打造生成式AI与AI芯片

韩国两大科技巨头——三星电子和Naver将联合开发一款用于企业的生成式AI，计划最早于10月份发布，与ChatGPT等工具竞争。根据双方的AI合作关系，作为韩国最大的在线和搜索引擎运营商，Naver将从三星获得半导体相关数据，以此创建生成式AI，再由三星进一步强化该工具。

知情人士称，一旦开发成功，这款可支持韩语的AI工具将被提供给三星电子设备解决方案（DS）部门使用，其应用范围包括其半导体业务。而在实际测试后，三星计划将该工具的使用范围扩大到公司其他业务，包括负责智能手机和家电业务的设备体验（DX）部门。

IBM发布针对基础模型和生成式AI的IBM watsonx平台

IBM在2023年度Think大会上宣布，将推出针对基础模型和生成式AI的全新平台IBM watsonx。该平台由三个产品集组成，其中，企业级AI开发平台IBM watsonx.ai和基于开放式湖仓一体架构的IBM watsonx.data预计会在2023年7月正式发布。

03 政策法规

欧盟立法者委员会同意更严格的AI规则草案

据路透社报道，在上周的投票中，欧洲议会议员同意禁止在公共场所使用面部识别工具，并对OpenAI的ChatGPT等生成式AI应用程序实施新的透明度措施。欧盟备受期待的AI法案将成为第一个管理该技术的全面立法，其中包含有关面部识别、生物识别监控和其他AI应用程序使用的新规则。经过两年的谈判，该法案现在有望进入下一阶段，立法者将与欧盟委员会和各个成员国最终确定法律的细节。

Sam Altman将首次出席美国国会听证会

ChatGPT这一突破性的生成式AI工具引发了人们对AI的新一轮投资热潮，促使美国政策制定者纷纷呼吁加强监管和规范，以应对其巨大的潜力和风险。当地时间5月16日，OpenAI联合创始人兼CEO Sam Altman将首次出席美国国会听证会。

据介绍，预计在听证会上，讨论议题将聚焦“可能需要哪些法律来保障普通人的利益”。IBM副总裁兼首席隐私和信任官Christina Montgomery，以及前纽约大学教授、对AI“炒作”持批评态度的Gary Marcus也将出席。

04 专家观点

Demis Hassabis：AGI有望在几年内到来

近日，谷歌旗下Google DeepMind CEO Demis Hassabis表示，通用人工智能（AGI）大概再过几年就可能出现。他说，“AI过去数年的进展惊人，未来没理由会慢下来，甚至可能加快。有鉴于此，我认为只要再花几年、也许是十年内（就会出现AGI）。”

AI歌手翻唱或涉多项侵权行为

据央视新闻报道，近段时间，通过模型训练和后期处理，模拟真人歌手声音进行翻唱的“AI歌手”走红网络。专家提示，“AI歌手”可能涉及多项侵权问题：民法典明确参照肖像权的规定保护自然人声音，不允许以伪造方式侵害他人肖像权；原词曲作者、演唱者、录音制作者的著作权，也不容忽视。目前，对于生成式AI的发展与管理，业界正在讨论，我国也即将有规范可依。

周鸿祎：不会用GPT的人未来会被淘汰

近日，360集团创始人周鸿祎表示，ChatGPT-4.0已经是地球上最聪明的“人”了，不会用GPT的人未来会被淘汰掉。“大家不要把它看成一个新时代的搜索或者是新的聊天机器人，这只是它第一个版本的包装而已。我觉得在三到五年里，各种行业都要被GPT重塑一遍，所以现在谁不拥抱AI，谁就要被淘汰。

蔡崇信：不用过于担心AI机器人未来会取代人类

对于飞速发展的AI及其可能的负面性，阿里巴巴集团董事会执行副主席蔡崇信表示，不用过于担心AI机器人比人类更聪明、甚至取代人类。他认为，人类的大脑还有成千上亿的细胞未被认识和探索，人类的潜能还有很多未被认知和开发。另外，此前的机器人只能做一些重复性工作，虽然当前已经可以做简单的创意性工作，但很难复制人类相互之间的关系、情商、感情、欲望等。机器人不拥有人类之间诸如父子、夫妻及朋友等这样的关系，机器人也很难产生像人类的一样的“下一代”。

IDC：预计中国AI市场规模将在2023年超过147亿美元

IDC预计，中国AI市场规模将在2023年超过147亿美元，在2026年超过263亿美元。IDC中国副总裁钟振山认为，市场增量将主要源于基于大模型的应用替换过去几年建设的AI应用、生成式AI带来的增量市场和全新AI赋能的企业级应用。未来，不具备大模型能力的厂商将难以维持竞争优势。

《复仇者联盟》导演：两年后或出现完全由AI制作的电影

日前，《复仇者联盟》导演Joe Russo表示，AI不会消失，所有人都应该害怕AI。Russo指出，AI应该是为人类提供服务的工具，而不是人类为AI服务。他预计，大约两年后就会出现完全由AI制作的电影，并称Z世代将是引领AI时代的关键，任何人都能在AI工具的协助下讲述故事或制造出大型游戏。

台积电总裁魏哲家：AI已带来革命性发展

近日，魏哲家在台积电技术论坛上表示，AI已带来革命性发展，并开玩笑地表示，“AI持续演进，今年我的演讲不是由ChatGPT生成来的，但明年一定会。”此外，魏哲家透露，公司有一家AI芯片龙头客户，其利用台积电代工售价600-700美元的AI芯片，完成开发AI方案设备并卖回给台积电，售价20万美元，“这就是AI的强大价值”。

民生证券：“小型化”和“离线化”模型出现，边缘侧终端和芯片迭代有望加速

民生证券研报指出，作为谷歌最新发布的大模型PaLM 2的最轻量版本，Gecko可在移动设备端运行快速运行，提供每秒处理20个token的能力，能够提供AIGC更为定制化、时延更低，安全性、隐私性更好的应用，开拓AI模型在终端芯片推理的场景，边缘侧智能终端以及SoC有望全面升级，进入新的更新换代周期。轻量级AI模型未来将持续提升智能终端边缘算力需求，智能硬件的能力边界将在AI的助力下不断拓宽。

05 其他

美国网站公司担心谷歌AI搜索降低原网站流量

日前，谷歌宣布将使用AI模型来整合网上信息，提供“生成式搜索”，在搜索结果页面顶部向用户直接展示AI生成的文本段落和一些链接，而非传统的蓝色链接列表形式。但多家网站公司表示，如果这种搜索形式成为谷歌搜索的默认方式，用户可能只会停留在Google.com，降低其他网站的访问量。一些公司开始探寻，是否可以阻止谷歌等公司抓取自家网站内容来训练他们的模型。

能听懂英语指令并执行家务的机器人

普林斯顿大学、斯坦福大学和谷歌的一组研究人员利用GPT-3 Davinci模型，研发出了一款能听懂英语指令并执行家务的机器人，名为TidyBot。这款机器人可以根据用户的喜好，自动完成如分类洗衣服、捡起地上的垃圾、收拾玩具等任务。

摩根士丹利：大多数个人投资者认为AI将对金融服务产生革命性影响

日前，摩根士丹利财富管理（MSWM）公布季度散户调查问卷结果，透露了个人投资者对AI的看法。大多数人认为，AI将对金融服务产生革命性影响，但不会取代人类顾问的指导，且年轻投资者对AI的热情最为明显。63%的受访者表示，有意向与利用AI的财务顾问合作。MSWM分析、数据和创新主管Jeff McMillan指出，AI不应被视为人类的替代品，而应被视为辅助财务顾问业务管理、与客户互动强大工具。

日本艺人协会称AI会剥夺工作机会

近日，由自由声优、音乐家等组成的日本艺人协会称“AI的发展导致表达的技术被剥夺”，许多人面临失业风险，并向日本文化厅等送交请愿书，要求完善法律加强权利保护措施。

一男子因用ChatGPT编造虚假信息被采取刑事强制措施

近日，平凉市公安局崆峒分局网安大队对“今晨甘肃一火车撞上修路工人致9人死亡”的文章，初步判断为信息虚假不实。经审讯，洪姓男子先搜寻了近年来中国讨论度广泛的社会新闻，随后利用ChatGPT将特定元素例如时间、地点、日期或性别等进行修改，重新撰成一篇假新闻，藉由上传这些文章让帐号赚取流量再加以变现。警方表示，洪姓男子编造假新闻并散布在网络上供人大量浏览的行为，已涉嫌寻衅滋事罪，目前已被采取刑事强制措施，最高可判处五年有期徒刑。

女网红用AI复制自己，同时交往千名男友

一位23岁的女网红Caryn Marjorie发布了AI版本的自己“Caryn AI”。据了解，Caryn AI是一款聊天机器人，可以作为用户的“虚拟女友”，每分钟收费一美元。根据《财富》杂志的消息，在过去一周的beta阶段，Caryn AI获得了7.16万美元（折合人民币近50万元）的收益，已经吸引了超过1000名付费粉丝，其中99%的用户是男性。

本网站的内容主要来自互联网上的各种资源，仅供参考和信息分享之用，不代表本网站拥有相关版权或知识产权。如您认为内容侵犯您的权益，请联系我们，我们将尽快采取行动，包括删除或更正。

{{userData.name}}已认证

AIGC周报：AI技术前瞻和企业动态

360与科大讯飞股票分析：AI助手带你看清市场走势

向量数据库和Embedding：AI领域的热门话题及应用解析

GeoSpy.ai

Globe Explorer

即梦Dreamina

Luma Dream Machine

Motionshop

StoryDiffusion

归档

{{userData.name}}已认证

360与科大讯飞股票分析：AI助手带你看清市场走势

向量数据库和Embedding：AI领域的热门话题及应用解析

如何选择ChatGPT API方式？比较ChatGPT API和ChatGPT Unofficial ProxyAPI

ChatGPT & OpenAI 注册使用指南（建议收藏）

OpenAI推出重大更新，降低ChatGPT应用成本95%

OpenAI发布DALL·E 3，AI绘画和ChatGPT强强联合，画面细节爆炸