您的位置:首页 > 互联网

实锤!村上春树、史蒂芬·金盗版书成训练数据,AI 巨头无一幸免「村上春树所有书」

发布时间:2023-08-23 13:59:56  来源:互联网     背景:

声明:本文来自于微信公众号 极客公园(ID:geekpark),作者 | 芯芯 ,编辑| 靖宇,授权转载发布。

为了训练大型语言模型,OpenAI、Meta、谷歌、微软等公司未经许可,从互联网上收割了数百万受版权保护的作品,在版权法的灰色地带中游弋。

如今,OpenAI 目前正面临大量的官司,原告称该公司训练数据集中的大多数书籍来自盗版来源和非授权网站。一旦被判侵权,公司有可能将面临巨额罚款或重构算法的局面。这也导致,如今 AI 公司越来越不愿意分享 AI 训练数据的详细信息。

但一些公开的盗版语料库已经被盯上。

近日,有人发现一个叫 Book3的数据集,包含近20万本书籍,囊括村上春树、史蒂芬·金等畅销书作家的著作,这个数据集被用在了训练 AI 模型上,最近遭到反盗版组织的反复攻击。

版权问题这把利刃,正悬在 AI 公司们的头上,有摇摇欲坠之势。

01

Books3,

罗永浩tnt工作站吐槽

AI 公司的秘密

一直以来,对于 AI 模型的训练数据并不完全透明。今年,多名美国作家针对 OpenAI 提起了集体诉讼,指控其使用盗版书籍来训练其语言模型,侵犯版权并违反了多项法律。

这些作家主张的证据很简单,因为些他们从未同意 OpenAI 使用他们的作品,然而 ChatGPT 却能提供他们作品的准确摘要,这让他们认为这些信息肯定是从某个地方获取的。

根据早期 GPT 版本的研究论文,训练数据集有部分来自于「两个基于互联网的书籍语料库」,它们被简单地称为「Books1」和「Books2」,这些数据集具体包含哪些作品比较含糊。Books1似乎是 bookcorpus,里面有数百本书明确声明「不得以商业或非商业目的复制和分发」。Book2则成为一个谜团,大多人猜测它们来自于「臭名昭著的影子图书馆网站」,如 Library Genesis、Z-Library、Sci-Hub 和 Bibliotik。

其中,Z-Library 成立于2008年,是互联网最大的盗版电子书库之一。2022年11月,美国政府起诉两名运营该网站的俄罗斯公民,这两人在阿根廷被逮捕。

至于 GPT-4的45TB 训练数据,其中包含什么内容的信息更加有限,OpenAI 多年来逐渐减少了其训练数据的披露。

尽管目前没有直接证据表明 OpenAI 使用盗版网站来培训 ChatGPT,但一些 AI 模型此前已经明确在盗版书籍上进行了训练,包括使用「Books3」数据集的 AI 模型。

EleutherAI 的 Pythia 研究论文中提到,Pythia 是使用 Pile 数据集进行训练的,而 Pile 数据集包含多个英语文本集,其中之一就是名为「Books3」的数据集。

Books3是用于训练 AI 的最著名的盗版书籍库之一,最初是由 AI 开发人员和知名开源 AI 支持者 Shawn Presser 于2020年上传。它包含37GB 的文本,包括196640本纯文本格式的书籍,并在盗版网站 bibliotik 上托管

「假设你想训练一个世界级的 GPT 模型,就像 OpenAI 一样。怎么做?你没有数据。现在你可以做到,现在每个人都这样做。为你呈现「books3」,又名「all of bibliotik」。」Shawn Presser 最早在社交平台上写道。

村上春树 书籍

开源 AI 支持者 Shawn Presser 于2020年上传「books3」| X

手机丢在滴滴车上师傅不肯还怎么办

然而,反盗版组织也在采取行动,代表相关利益群体,试图限制未经授权的 AI 训练数据的使用。

这段时间,反盗版组织 Rights Alliance 向相关站点发送删除通知后,相关站点已将 Books3数据集下线,导致尝试访问该数据集的用户会看到404错误。Rights Alliance 还联系了 AI 模型托管平台 Hugging Face(该站点托管了 Books3下载链接)以及 EleutherAI。然而,尽管一些链接被下架,该数据集的副本并未消失,仍然在其他地方出现。

遭到针对后,Shawn Presser 继续发布新的下载链接,他称,除非反对者打算让 ChatGPT 下线,或者通过诉讼将其告到灭亡,否则,他希望每个人都能够制作自己的 ChatGPT,他还称自己「很乐意入狱10个月(海盗湾创始人服过的最高刑期),因为我推动了科学进步并赋予了你们复制 ChatGPT 的能力。」

复制ChatGPT这样的模型的唯一方法,是创建像 Books3这样的数据集。」Shawn Presser 称:「每个营利性公司都会秘密地这样做,不会将数据集发布给公众。」「没有 Books3,我们就生活在一个只有 OpenAI 和其他亿万美元公司才能访问这些书籍的世界中,这意味着你不能制作自己的 ChatGPT。没有人能。只有亿万美元的公司才有资源做到这一点。」

包括 Meta 在内的一些公司曾经使用过 Book3,另外,Meta、谷歌都使用过的 C4训练数据集也被诟病过,现在这些公司对其语言模型中的内容更为保密。

Meta 的 Llama2增加了40% 的数据,但在其白皮书中,该公司对其最新的 大语言模型使用了什么数据更为犹豫,唯一提到的是「一个新的混合的公开可用在线数据」。随着 AI 和版权之间的摩擦升温,公司越来越不愿意分享 AI 训练数据的详细信息。

02

万名作家联名反对

超一万名作家敦促 AI 公司停止使用其作品。他们不希望AI 模仿其作品并学会写作,除非科技公司为此付费。

美国的作家协会已经向巨头们发了一封公开信,包括 OpenAI、谷歌、Meta、Stability AI、IBM 和微软公司的各大 CEO,要求他们停止未经许可使用他们的作品,或对使用作品进行补偿

其中包括《达芬奇密码》作者丹·布朗、《饥饿游戏》作者苏珊·柯林斯、《使女的故事》作者玛格丽特·阿特伍德、《自由》作者乔纳森·弗兰岑等人都签署了这封公开信,签署的作家名单长达100多页。

村上春树这本书怎么样

一万名作家签署公开信 |美国作家协会

目前,该作家协会正尝试先在不提起诉讼的情况下解决争端,因为「诉讼需要大量的资金,而且需要很长时间。」

但也有一些文学界人士愿意直接在法庭上与科技公司对抗,控诉 Meta 或 OpenAI 等使用盗版来训练他们的 AI。此外,文学经纪人们正在与出版商商讨,要更新出版合同条款,禁止未经授权的 AI 训练用途,大部分出版商都愿意限制 AI 使用他们的出版物。

根据美国作家协会的调查,90% 的作家认为,作家应该获得对其作品用于训练生成式人工智能的补偿,65% 的作家支持建立一个集体授权制度,以补偿作者的作品被用于训练生成式 AI。

此外,69% 的作家认为他们的职业受到生成式 AI 的威胁,70% 的作家认为出版商将开始使用 AI 来完全或部分生成书籍,取代人类作者。

除了发公开信、打官司、完善合同,出版业还在进一步寻求立法。

美国作家协会的人正在游说制定相关法律、法规和政策:在同意方面,要求在生成式人工智能中使用作家作品时获得许可;在补偿方面,为那些希望允许其作品用于生成式人工智能培训的作家提供补偿;在透明度方面,要求人工智能开发者透明披露他们用于培训其人工智能的作品

他们也期望,生成式 AI 的输出使用到作家的作品时,要获得许可并建立相应的补偿机制,或者当在提示中使用作家的姓名、身份或作品标题时,也应获得许可。此外,他们要求作者、出版商、平台和市场标明 AI 生成的作品,并在作品很大一部分(例如超过10-20%)由 AI 生成时进行标识。

「我们需要确保人类创作者得到补偿,这不仅是为了创作者本身,而是为了确保我们的书籍和艺术继续反映出我们的真实和想象的经验,开拓我们的思维方式,教导我们新的思维方式,并推动我们社会的发展,而不是重复旧观念。」该作家协会在官方声明中称。

03

NYT VS OpenAI

除了作家和艺术家,其他类型的内容创作者,也纷纷加入起诉 AI 公司的行列,一些新闻机构批评科技公司未经授权或补偿就使用他们的内容。

比如,纽约时报正在考虑对 OpenAI 提起诉讼,称 OpenAI 的ChatGPT使用了该报的数据进行训练,而未经纽约时报许可。在过去的几个月里,OpenAI 和纽约时报一直在试图达成一项有关纽约时报内容的许可协议。但谈判还未有结果,存在破裂的可能。

在最近对其服务条款政策的更改中,纽约时报明确禁止将其庞大的媒体档案用于训练「任何软件程序,包括但不限于训练机器学习或人工智能(AI)系统」的目的。该政策适用于纽约时报的文本内容、照片、视频和元数据,并明确禁止网络爬虫访问这些数据来训练专有产品。

这里做一个假设,如果法院判定 OpenAI 等 AI 公司的训练行为属于侵权,OpenAI 可能会被迫停止使用受版权保护的数据,并在不使用受版权保护的数据的前提下,重新构建其算法,这会引发多大的麻烦?

科技公司也试图与新闻媒体建立关系。谷歌曾试图争取像纽约时报、华盛顿邮报等新闻机构的支持,试图向他们推销 AI 工具。还有 AI 公司向新闻非营利机构提供微薄的慈善捐款。

期间,也有新闻机构不那么强硬。美联社今年就与OpenAI达成了一项为期两年的许可协议,同意将美联社的内容授权给 OpenAI 使用训练。作为回报,OpenAI 提供了美联社访问「OpenAI 的技术和产品专业知识」的权利。

哈啰单车闯红灯怎么办

04

悬在AI 公司头上的剑

AI 公司抓取海量互联网数据,已经导致法律问题的出现,起诉 AI 公司的人正在变得越来越多。

今年,美国一律所相继对 OpenAI、Meta 等巨头提起诉讼,指控他们未经同意、未经授权或未经补偿地占用成千上万名作家的作品,来训练他们的大语言模型。行业预计诉讼规模将很庞大,因为其他内容创作者也有可能受此启发采取法律行动。

其他生成 AI 公司,如 AI 图像生成工具 Stable Diffusion 背后的 Stability AI,也惹上版权官司。Stable Diffusion 是在 LAION-5B 数据集上进行训练的,数据集包含58.5亿个图像文本对,大多数都受版权保护。Getty Images 正在起诉 Stability AI,指控其未经授权在超过1200万张 Getty Images 上训练 AI 图像生成模型

许多艺术家和利益相关者也表示不满,对 Stability AI、DeviantArt 和 Midjourney 等公司提起诉讼,指控他们侵犯版权、侵犯肖像权、不正当竞争和不正当获利,寻求赔偿和禁令。

微软推出的编程工具 Copilot 也面临集体诉讼。Copilot 是 GitHub 与 OpenAI 合作开发的基于人工智能的自动编程产品,主要利用 GitHub 上的公共代码库,在数十亿行公开可用的代码上进行了训练,能通过简单提示替用户编写代码。开源程序员和律师指控他们从事开源软件盗版,被告包括 GitHub、微软及其人工智能技术合作伙伴 OpenAI。

如果要打官司,AI公司可能会援引所谓的「公平使用原则」来为其辩护,该原则允许在某些情况下无需许可即可使用作品,包括教学、批评、研究和新闻报道。问题是,AI 训练是否适用「公平使用原则」。

几年前,美国作家协会也曾起诉谷歌,理由是谷歌未购买其图书馆项目中收录的书籍,当时,联邦上诉法院判决认为,谷歌为其图书馆项目扫描了数百万本书的数字副本是合法的「公平使用」,而非侵犯版权。关键在于,谷歌的数字图书馆并没有为这些书创造出「重大市场替代品」,这意味着它与原作并无竞争关系

目前,各国政府正努力将生成式 AI 纳入立法范畴。欧盟也在制定一项 AI 法案,该法案将迫使公司将训练模型信息透明化。上半年,美国作家协会已两次访问国会山,讨论生成式 AI 和作家保护措施的问题,涉及的问题包括集体授权和版权保护、反垄断豁免权以及 AI 标签和透明度要求。

「除非国会采取干预措施,以确保生成式人工智能技术的开发和使用受到监管,否则驱动原创表达并丰富我们文化交流的重要版权激励将变得毫无意义。」该作家协会在官方声明中称。

从现有舆论看,虽然一些人担心训练 AI 可能会引发版权问题,但也有人认为,OpenAI 等 AI 公司不需要特别的许可协议来训练模型,版权担忧不利于 AI 发展进步;有人则认为,取得作者的同意是至关重要的,创作者应该有拒绝的权利,或者,AI 公司至少应该购买训练数据的书籍。

技术正在做人类历史上从未发生过的事情,AI 训练数据方面的开源精神应该有底线吗?未来的法律是掣肘还是保护?如何平衡 AI 的发展与尊重人类创作权益,可能是和「通用人工智能何时到来」同样重要的问题。


返回网站首页

本文评论
企业如何让员工高效办公?先从最简单基础的键盘外设入手!_办公键盘操作
  随着科技的发展,企业对生产力效率也提出了更多的要求,目前很多行业都出现了多屏幕、多系统协同办公的趋势,这样能够充分提升员工的办公效率,也符合更为现代化的办公空间理...
日期:01-16
爱奇艺调整分账模式,抖快短剧加快剧场化「爱奇艺网剧分账」
声明:本文来自于微信公众号 新声Pro(ID:xinsheng-pro),作者:杨睿琦 王亦璇 赵铭 黄泽正,授权转载发布。1. 爱奇艺调整分账模式,增设会员拉新分账、取消平台定级爱奇艺宣布,从10月1...
日期:10-02
研究称常用AI工作会更孤独 专家:适度限制使用频率_ai最常用的功能
快科技6月14日消息,人工智能正在引发一场新的技术革命,越来越多的公司使用AI系统为员工提供帮助。苹果不给充电器中国怎么不罚据美国心理学会最新发表的研究,在工作中经常与AI...
日期:06-14
2021中国新经济企业500强榜单发布 腾讯、阿里、字节位列前三「中国五百强企业排名表2021」
  中国企业评价协会发布了“2021中国新经济企业500强”榜单,腾讯、阿里巴巴、字节跳动位列前三。  榜单显示,2021年新经济500强榜单,较上年变化率达到34.2%,超过三分之一的...
日期:09-04
给宠物做殡葬,一年两个亿!_宠物殡葬赚钱吗
声明:本文来自于微信公众号 十里村(ID:shilipxl),作者:村长住在十里村,授权转载发布。各位村民好,我是村长。在杭州有一家这样的公司,一年给10万只宠物做丧葬服务,年营收超过2亿元...
日期:09-30
芝商所:明年1月提供比特币期权交易服务(美国芝加哥短期期权交易所最新消息)
《芝商所:明年1月提供比特币期权交易服务》文章已经归档,不再展示相关内容,下文是的自动化写作机器人,通过算法提取的文章重点内容。这只AI还很年轻,欢迎联系我们帮它成长:该交易...
日期:08-01
韩国商用5G反馈:5G真的很快!但信号不稳定?_韩国的5g已经大规模使用了吗
  韩国三大电商正式推出了5G商用网络,用户只需要购买一台5G手机,并且在平台注册登记,即可体验5G的快速网络生活。在长久的等待下,韩国成为全球首个商用5G的国家,但是在外媒xfa...
日期:10-25
中国联通在浙江开通首个面向东海海域超远覆盖 5G 基站_浙江联通5g覆盖区域
IT之家 5 月 6 日消息,工信部新闻宣传中心发文称,中国联通浙江分公司在宁波象山县石浦东门岛开通浙江省首个面向东海海域的超远覆盖 5G 基站,覆盖距离长达 50 公里。浙江联通和...
日期:05-07
闲鱼暂停新用户注册(闲鱼暂停新用户注册,将进行系统升级改造)
    原标题:闲鱼暂停新用户注册,将进行系统升级改造       9 月 3 日消息 据 Tech 星球报道,二手商品交易平台闲鱼 App 于近日已经暂停新用户注册。在闲鱼的新用户注册...
日期:03-20
今年直播电商会有哪些新玩法?我和快手的商家、达人聊了聊「快手直播电商运营策略」
声明:本文来自于微信公众号新榜(ID:newrankcn),作者:云飞扬1993,授权转载发布。“今年的机会是什么?挑战在哪里?”这可能是上半年直播电商从业者最常问的问题。以曾经堪称火爆的...
日期:03-24
流媒巨头网飞发布“冒犯性内容”,阿拉伯国家要求删除
  【环球时报综合报道】包括埃及、沙特和阿联酋在内的7个阿拉伯国家已要求流媒体巨头网飞删除“冒犯性内容”。网飞 资料图  据澳大利亚《太阳先驱报》8日报道,海湾阿拉...
日期:09-10
GPT产业联盟正式成立 AI大语言模型博弈已进入关键时刻
4月19日消息:在日前的 2023 全球元宇宙大会上,GPT 产业联盟宣布正式成立。最便宜的iphone 搭载a1510元天猫购物红包 已抢完该联盟由中国移动通信联合会、中国电信、中国移动...
日期:04-19
董明珠遭遇前任背刺_董明珠36岁前
朱江洪最近很忙。 炎夏已至,这位董明珠的老领导、前格力董事长,正带队飞利浦空调,誓要拿下格力电器的半壁江山。 家电品牌以炎夏为契机,大力加码营销。早在5月下旬,618家电大促...
日期:06-17
4nm Zen4!宏碁全球抢发AMD锐龙9 7940H笔记本:配个RTX 4050
自从年初发布之后,AMD新一代锐龙7040HS/H系列移动平台一直备受期待,但四个月过去了,新笔记本迟迟就是不上市。据快科技了解,4月20日晚,宏碁发布了新一代传奇Go 16笔记本(海外名Sw...
日期:04-21
男子过生日:蛋糕上名字连续10年被写错
6月5日消息,黑龙江齐齐哈尔一男子生日蛋糕名字被连续写错了10年。该男子表示,他叫方帅博不叫方师傅,但是蛋糕上写着方师傅,生日快乐!”天翼云发布会当事人这则视频引发关注,在公开...
日期:06-06
GPT-4只是AGI的火花?LLM终将退场,世界模型才是未来「gpt2模型」
声明:本文来自于微信公众号 新智元(ID:AI_era),作者:新智元,授权转载发布。【新智元导读】人类距离AGI还有多远?也许大语言模型不是最终答案,一个理解世界的模型才是未来的方向。...
日期:08-15
丰田无奈!量产电动车重新上市后销量不佳:租金首付减半「丰田电动汽车最新消息」
电动化时代,传统车企巨头丰田突然显得无所适从了起来,首款纯电动车bZ4X在上市两个月就停产并召回,原因在于潜在的轮毂螺栓松动”问题。虽然该车经过优化解决了这个问题,并重新开...
日期:11-03
华为率先把大模型接入手机!小艺+大模型,智慧助手智商+++_华为小艺虚拟形象
声明:本文来自于微信公众号 量子位(ID:QbitAI),作者:明敏,授权转载发布。好家伙,华为HarmonyOS接入大模型,智慧助手可以这么玩了吗?只需一句中文指令,华为小艺就写出一封英文邮件:...
日期:08-11
爱玛电动车今日股价「电动两轮车卖爆!爱玛、新日前三季度净利润均翻倍」
当前环境下,人们出行更青睐私人交通方式,相较于私家车,在市区里面通勤,两轮电动车在经济和便利性方面优势巨大,两轮电动车销量暴增,也带动厂商业绩上涨。10月17日,新日股份公告称,预...
日期:10-22
多家车企官宣降价,下半年车市“价格战”或再开启_年后汽车降价
品玩8月8日讯,据证券日报消息,进入8月份以来,多家车企通过官降、新车优惠、终端让利等不同形式加入降价大军,涵盖车型超20款,价格从5万元到30万元不等。国内经销商库存指数在经历...
日期:08-08