揭秘！村上春树、史蒂芬·金盗版书成AI训练数据，连AI巨头也难逃此命运

AI快讯 2年前 (2023) liulian

1,147 0 4

为了训练大型语言模型，包括OpenAI、Meta、谷歌、微软在内的公司未经许可，从互联网上搜集了大量受版权保护的作品，游走在版权法的灰色地带中。

目前，OpenAI正面临大量的法律诉讼，原告指控该公司训练数据集中的大部分书籍来自盗版来源和非授权网站。一旦被判侵权，公司可能会面临巨额罚款或重新设计算法的风险。这也导致如今AI公司越来越不愿意分享AI训练数据的详细信息。

然而，一些公开的盗版语料库已经引起了人们的关注。

最近，有人发现了一个名为Book3的数据集，其中包含了近20万本书籍，涵盖了村上春树、史蒂芬·金等畅销书作家的著作，这个数据集被用于训练AI模型，并最近受到了反盗版组织的频繁攻击。

版权问题像一把悬在AI公司头上的利刃，形势岌岌可危。

一直以来，AI模型的训练数据并不完全透明。今年，多名美国作家联合起来对OpenAI提起诉讼，指控其使用盗版书籍进行语言模型训练，侵犯了版权并违反了多项法律。

这些作家提供了一些简单的证据来支持他们的主张。因为他们从未同意过OpenAI使用他们的作品，然而ChatGPT却能提供他们作品的准确摘要，这让他们认为这是从某个地方获取的信息。

2020年，开源AI支持者Shawn Presser上传了名为「books3」的数据集

超过一万名作家已经联合起来，敦促AI公司停止未经允许使用他们的作品。这些人不希望他们的写作风格被AI模仿，除非科技公司为此支付费用。

美国作家协会已经向一些科技巨头，包括OpenAI、谷歌、Meta、Stability AI、IBM和微软的CEO们发出了一封公开信，要求他们停止未经允许使用他们的作品，或者对使用作品进行相应的补偿。

今年，美国各地相继对OpenAI、Meta等科技巨头提起诉讼，指控他们未经作者同意或授权，擅自使用成千上万名作家的作品来训练大语言模型。这一诉讼涉及的行业规模庞大，预计将有更多内容创作者可能采取法律行动。

除了这些巨头，其他生成AI公司也卷入了版权纠纷。例如，Stable Diffusion背后的Stability AI因在LAION-5B数据集上进行训练而被告上法庭。该数据集包含超过58.5亿个图像文本对，其中大多数受到版权保护。Getty Images正起诉Stability AI，指控其未经许可在超过1200万张Getty Images上训练AI图像生成模型。

许多艺术家和相关利益方也对Stability AI、DeviantArt和Midjourney等公司提起了侵权诉讼。他们指责这些公司侵犯了他们的版权、肖像权，并存在不正当竞争和不当获利行为，要求赔偿和禁令。

从当前舆论来看，尽管一些人担心训练AI可能引发版权问题，但也有人持有不同观点。他们认为，像OpenAI这样的AI公司不需要特别的许可协议来训练模型，版权担忧对AI的发展进步不利。另一方面，有人认为获取作者的同意至关重要，创作者应享有拒绝的权利，或者AI公司至少应购买训练数据的书籍。

技术正在创造人类历史上从未有过的事物。在AI训练数据方面，是否应该有开源精神的底线？未来的法律是限制还是保护？如何平衡AI的发展与尊重人类创作权益可能是和“通用人工智能何时到来”同样重要的问题。