**划重点:**
– 🤖 OpenAI启动Data Partnerships计划,与第三方机构合作,创建用于AI模型训练的公共和私有数据集。
– 📚 OpenAI寻求多领域、多语言、多格式的数据,以提高AI模型的广泛理解。
– 💼 尽管有商业动机,OpenAI的Data Partnerships计划也引发了关于数据拥有者权益和透明度的讨论。
AICMTY(aicmty.com) 11月10日 消息:OpenAI最近宣布了Data Partnerships计划,旨在与第三方机构合作,创建用于AI模型训练的公共和私有数据集。这一举措旨在解决现有AI模型训练数据集中存在的问题,其中包含有毒语言和偏见。
OpenAI的目标是培养更安全、更有益于全人类的AI。为了实现这一目标,他们计划采集“大规模”数据集,以反映人类社会,尤其是那些目前在网上难以获得的数据。这些数据将涵盖各种形式,包括图像、音频和视频,但重点是寻找能够表达人类意图的数据,例如长篇写作或对话,跨越不同语言、主题和格式。
OpenAI还承诺将与合作机构合作,必要时使用光学字符识别和自动语音识别工具将培训数据数字化,并在必要时删除敏感或个人信息。初期,他们计划创建两种类型的数据集:一个是公开的数据集,任何人都可以用于AI模型训练,另一个是用于训练专有AI模型的私有数据集,供希望保护数据隐私的机构使用。
尽管OpenAI提出了宏伟的目标,但也有人对其商业动机提出质疑。一些人认为,OpenAI的举措旨在改善其模型的性能,但可能会损害其他机构的利益,并未对数据拥有者作出合理的赔偿。这引发了关于透明度和数据使用权益的讨论。
OpenAI的Data Partnerships计划旨在推动AI模型的发展,但其实施和影响还有待观察。在克服数据集偏见等挑战方面,OpenAI是否能做得更好,仍有待验证。