YouTube***被OpenAI用来训练大模型？CEO称暂无证据，但此举违规

nihdff 04-07 28

默认

摘要： 　　人工智能头部企业OpenAI可以使用哪些数据来训练模型，再次引发公开争论。　　当地时间4月5日，视频网站YouTube首席执行官尼尔·莫汉（Neal Mohan）在采访中表示...

　　当地时间4月5日，***网站YouTube首席执行官尼尔·莫汉（Neal Mohan）在***访中表示，他并没有直接证据能够证明OpenAI确实使用了YouTube的***来完善其文生***AI工具Sora，如果真的使用了，那就“明显违反”了YouTube平台的使用条款。

　　莫汉表示：“从创作者的角度来看，当创作者将他们的辛勤劳动上传到我们的平台时，他们有一定的期望。其中之一就是符合YouTube的服务条款，不允许下载文字或***片段等内容。这（OpenAI使用YouTube***）明显违反了我们的服务条款。”

（图片来源网络，侵删）

　　此外，莫汉还在***访中提到，谷歌确实使用了YouTube上的一些内容训练旗下大模型Gemini，但在使用这些内容之前，已经得到了创作者的授权，并遵循了YouTube与创作者之间的合同。

　　近日，《***》报道，OpenAI和谷歌涉嫌使用YouTube***的转录文本来训练其人工智能模型，这一行为可能侵犯了YouTube创作者的版权。报道称，OpenAI通过使用其Whisper语音识别工具，转录了超过一百万小时的YouTube***内容，并将这些数据用于训练模型。

　　OpenAI的Sora是一种文生***工具，能够一次生成整个***或扩展生成的***以使其更长。和其他生成式AI工具的工作原理一样，Sora也是从网络上吸收各种内容，并使用这些数据作为生成新内容的基础，包括***、照片、叙述文本等。

（图片来源网络，侵删）

　　AI的强大功能建立在大量数据训练的基础之上，随着OpenAI、谷歌和其他公司竞相开发更强大的AI工具，他们正在寻求越来越多的数据来训练模型，以生成更好的结果。

　　但这已经引发了人们对数据来源、用途的质疑。此前，OpenAI因其训练模型的内容来源而被《***》以及一些出版社和作者***。

　　今年1月，《***》在纽约南区***向OpenAI及其投资人微软公司提起侵犯版权诉讼，指控二者未经许可使用其数百万篇文章以训练人工智能模型，而这些聊天机器人现在与该新闻机构形成竞争，成为可靠的信息来源。

（图片来源网络，侵删）

　　诉讼称，被告应对与“非法***和使用《***》独特有价值的作品”相关的“数十亿美元的法定和实际损害”负责，还要求其销毁使用《***》版权材料的所有AI模型和训练数据。

　　随后OpenAI回应称，《***》的诉讼毫无根据，但仍然希望与其建立建设性的合作伙伴关系。

　　此外，据外媒报道，今年3月，OpenAI首席技术官Mira Murati在接受***访时还曾对Sora的训练数据来源含糊其辞。

　　当被追问具体来源是否包含YouTube的***时，Murati回复“我实际上并不确定”，并拒绝回答有关Instagram或Facebook***是否被纳入训练集的问题。她辩称，如果这些***是公开可用且可以使用的，那么可能会被使用，但她本人对此并不确定。

文章版权及转载声明

[免责声明]本文来源于网络，不代表本站立场，如转载内容涉及版权等问题，请联系邮箱:83115484@qq.com，我们会予以删除相关文章，保证您的权利。转载请注明出处：http://www.dlwnw.com/post/66748.html