本文作者:nihdff

YouTube***被OpenAI用来训练大模型?CEO称暂无证据,但此举违规

nihdff 04-07 28
YouTube***被OpenAI用来训练大模型?CEO称暂无证据,但此举违规摘要:   人工智能头部企业OpenAI可以使用哪些数据来训练模型,再次引发公开争论。  当地时间4月5日,视频网站YouTube首席执行官尼尔·莫汉(Neal Mohan)在采访中表示...

  人工智能头部企业OpenAI可以使用哪些数据训练模型,再次引发公开争论。

  当地时间4月5日,***网站YouTube首席执行官尼尔·莫汉(Neal Mohan)在***访中表示,他并没有直接证据能够证明OpenAI确实使用了YouTube的***来完善其文生***AI工具Sora,如果真的使用了,那就“明显违反”了YouTube平台的使用条款。

  莫汉表示:“从创作者的角度来看,当创作者将他们的辛勤劳动上传到我们的平台时,他们有一定的期望。其中之一就是符合YouTube的服务条款,不允许下载文字或***片段等内容。这(OpenAI使用YouTube***)明显违反了我们的服务条款。”

YouTube视频被OpenAI用来训练大模型?CEO称暂无证据,但此举违规
(图片来源网络,侵删)

  此外,莫汉还在***访中提到,谷歌确实使用了YouTube上的一些内容训练旗下大模型Gemini,但在使用这些内容之前,已经得到了创作者的授权,并遵循了YouTube与创作者之间的合同。

  近日,《***》报道,OpenAI和谷歌涉嫌使用YouTube***的转录文本来训练其人工智能模型,这一行为可能侵犯了YouTube创作者的版权。报道称,OpenAI通过使用其Whisper语音识别工具,转录了超过一百万小时的YouTube***内容,并将这些数据用于训练模型。

  OpenAI的Sora是一种文生***工具,能够一次生成整个***或扩展生成的***以使其更长。和其他生成式AI工具的工作原理一样,Sora也是从网络上吸收各种内容,并使用这些数据作为生成新内容的基础,包括***、照片、叙述文本等。

YouTube视频被OpenAI用来训练大模型?CEO称暂无证据,但此举违规
(图片来源网络,侵删)

  AI的强大功能建立在大量数据训练的基础之上,随着OpenAI、谷歌和其他公司竞相开发更强大的AI工具,他们正在寻求越来越多的数据来训练模型,以生成更好的结果。

  但这已经引发了人们对数据来源、用途的质疑。此前,OpenAI因其训练模型的内容来源而被《***》以及一些出版社和作者***。

  今年1月,《***》在纽约南区***向OpenAI及其投资微软公司提起侵犯版权诉讼,指控二者未经许可使用其数百万篇文章以训练人工智能模型,而这些聊天机器人现在与该新闻机构形成竞争,成为可靠的信息来源。

YouTube视频被OpenAI用来训练大模型?CEO称暂无证据,但此举违规
(图片来源网络,侵删)

  诉讼称,被告应对与“非法***和使用《***》独特有价值的作品”相关的“数十亿美元的法定和实际损害”负责,还要求其销毁使用《***》版权材料的所有AI模型和训练数据。

  随后OpenAI回应称,《***》的诉讼毫无根据,但仍然希望与其建立建设性的合作伙伴关系。

  此外,据外媒报道,今年3月,OpenAI首席技术官Mira Murati在接受***访时还曾对Sora的训练数据来源含糊其辞。

  当被追问具体来源是否包含YouTube的***时,Murati回复“我实际上并不确定”,并拒绝回答有关Instagram或Facebook***是否被纳入训练集的问题。她辩称,如果这些***是公开可用且可以使用的,那么可能会被使用,但她本人对此并不确定。

文章版权及转载声明

[免责声明]本文来源于网络,不代表本站立场,如转载内容涉及版权等问题,请联系邮箱:83115484@qq.com,我们会予以删除相关文章,保证您的权利。转载请注明出处:http://www.dlwnw.com/post/66748.html

阅读
分享