作者指控 Meta 不顾自己律师的警告,将受版权保护的书籍用于人工智能训练
站长之家(ChinaZ.com) 12 月 13 日消息:Meta 在一起夏季提起的版权侵权诉讼中的最新提交文件显示,尽管律师警告使用数千本盗版书籍训练其 AI 模型的法律风险,该公司仍然这样做了。
周一晚间提交的新文件整合了针对 Facebook 和 Instagram 所有者的两起诉讼,由喜剧演员 Sarah Silverman、普利策奖得主 Michael Chabon 以及其他著名作者提起。他们指控 Meta 未经许可使用他们的作品训练其人工智能语言模型 Llama。
上个月,加州法官驳回了 Silverman 诉讼的一部分,并表示将允许作者修改他们的指控。Meta 尚未对这些指控作出回应。
周一提交的新起诉包括 Meta 关联研究员在 Discord 服务器上讨论数据集采购的聊天记录,这可能是一个重要证据,表明 Meta 知道其使用这些书籍可能不受美国版权法保护。
在起诉中引用的聊天记录中,研究员 Tim Dettmers 描述了他与 Meta 法律部门就使用书籍文件作为训练数据是否「合法」进行的讨论。
Dettmers 在 2021 年写道,他提到 Meta 承认用来训练 Llama 第一版的一个数据集「The Pile」,「在 Facebook,有很多人有兴趣使用 (The Pile),包括我自己,但以其当前形式,我们因法律原因无法使用它。」
根据起诉,Dettmers 在前一个月写道,Meta 的律师告诉他「如果数据被用来训练模型或发布,则不能使用该数据」。
尽管 Dettmers 没有详细描述律师的担忧,但聊天中的其他人指出,「仍在享有版权的书籍」可能是最大的担忧来源。他们表示,对数据的训练应该「属于合理使用范畴」,这是一种保护版权作品某些未经许可使用的美国法律原则。Dettmers 表示,他目前无法立即对这些指控发表评论。
今年,科技公司面临了一系列来自内容创作者的诉讼,他们指控这些公司剽窃受版权保护的作品,以构建在全球引起轰动并引发投资热潮的生成型 AI 模型。
如果这些案件成功,可能会抑制生成型 AI 的热潮,因为它们可能会通过迫使 AI 公司补偿艺术家、作者和其他内容创作者使用其作品而提高构建数据密集型模型的成本。
同时,欧洲新的临时人工智能法规可能会迫使公司披露用于训练模型的数据,从而可能使它们面临更多法律风险。
Meta 在 2 月发布了其 Llama 大型语言模型的第一个版本,并公布了用于训练的数据集列表,包括「ThePile」的 Books3 部分。根据起诉,组建该数据集的人称其包含 196,640 本书。
最新版本模型 Llama 2 的训练数据,该模型已于今年夏天投入商业使用">该公司并未透露其最新版本模型 Llama 2 的训练数据,该模型已于今年夏天投入商业使用。
Llama 2 对月活跃用户少于 7 亿的公司免费使用。其发布在科技领域被视为生成型 AI 软件市场的潜在游戏规则改变者,威胁到像 OpenAI 和 Google 这样的主导者,后者对其模型的使用收费。