您的位置:首页 > 互联网

美媒揭秘大模型训练数据集:部分内容有些"脏"_模型训练的过程是什么过程

发布时间:2023-04-20 11:35:49  来源:互联网     背景:

4月20日消息,过去四个月,人工智能聊天机器人变得越来越受欢迎,它们能够完成各种任务,比如写复杂的学术论文和进行紧张的对话,能力很令人惊叹。

聊天机器人并不像人类那样思考,它们甚至不知道自己在说什么。它们之所以能模仿人类的语言,是因为驱动它们的人工智能已经吸收了大量的文本,其中大部分内容是从互联网上抓取的。

模型训练过程

这些文本是人工智能在构建过程中获取世界信息的主要来源,它们会对人工智能的响应方式产生深远影响。如果人工智能在司法考试中取得了优异成绩,那可能是因为它的训练数据中包含了数以千计的LSAT(Law School Admission Test,美国法学院入学申请考试)资料。

科技公司对他们向人工智能提供了哪些信息始终保密。因此,《华盛顿邮报》开始分析其中一个重要数据集,彻底揭示了用于训练AI的专有、个人和常常具有攻击性的网站类型。

ces奔驰概念车

为了探究人工智能训练数据的内部构成,《华盛顿邮报》与艾伦人工智能研究所的研究人员合作,对谷歌的C4数据集进行了分析。这个数据集是一个包含1500多万个网站的海量快照,这些网站内容被用来训练许多备受关注的英语人工智能,例如谷歌的T5和Facebook的LLaMA。而OpenAI没有透露他们使用了什么样的数据集来训练支持聊天机器人ChatGPT的模型。

在这项调查中,研究人员使用网络分析公司Similarweb的数据对网站进行了分类。其中大约三分之一的网站无法进行分类而被排除,主要是因为它们已经不再存在于互联网上。接着,研究人员根据数据集中每个网站出现的“token”数量,对剩下的1000万个网站进行了排名。token是处理信息的小段文本,通常是一个单词或短语,用于训练AI模型。

从维基百科到WoWhead


C4数据集的网站主要来自新闻、娱乐、软件开发、医疗和内容创作等行业。这可以解释为什么这些领域可能受到新一波人工智能的威胁。排名前三的网站分别是:第一名是谷歌专利搜索,它包含世界各地发布的专利文本;第二名是维基百科;第三名是只接受付费订阅的数字图书馆Scribd。此外,排名靠前的其他网站还有盗版电子书市场Library(第190位),这个网站因非法行为被美国司法部查封。此外,数据集中还存在至少27个被美国政府认定为盗版和假冒产品市场的网站。

还有一些顶级网站也出现在其中,例如《魔兽世界》玩家论坛wowhead(第181位),以及阿里安娜·赫芬顿(Arianna Huffington)创立的用于帮助缓解职业倦怠的网站thriveglobal(第175位)。此外,还有至少10个出售垃圾箱的网站,包括dumpsteroid(第183位),但它似乎已经无法访问。

虽然大部分网站都是安全的,但有些网站存在严重的隐私问题。例如,有两个排名进入前100位的网站,都私下承载了州选民登记数据库的副本。虽然选民数据是公开的,但这些模型可能会以未知的方式使用这些个人信息。

工商业网站占据了最大的类别(占分类token的16%)。排名第一的是提供投资建议的The Motley Fool(第13位)。其次是允许用户为创意项目进行众筹的Kickstarter网站(第25位)。而排名较后的Patreon位列第2398,该网站帮助创作者从订阅者那里收取每月费用以获得独家内容。

然而,Kickstarter和Patreon可能会让人工智能获取艺术家的想法和营销文案,人们担忧AI可能会在向用户提供建议时复制这些作品。目前,艺术家的作品被包括在人工智能培训数据中时,他们不会得到任何补偿,他们已经向文本转图像生成器Stable Diffusion、MidJourney和DeviantArt提出了侵权索赔。

根据这次《华盛顿邮报》的分析,更多的法律挑战可能即将到来:C4数据集中有超过2亿次出现版权符号(表示注册为知识产权的作品)。

技术网站是第二大类别,占分类token的15%。这包括许多平台,它们帮助人们建立网站,比如谷歌协作平台(第85位),它的页面涵盖了从英格兰雷丁柔道俱乐部到新泽西州幼儿园的各种内容。

C4数据集还包含了50多万个个人博客,占分类内容的3.8%。发布平台Medium排名第46位,是第五大科技网站,在其域名下拥有数万个博客。此外,还有在WordPress、Tumblr、Blogpot和Live Journal等平台上撰写的博客。

这些博客形式多样,从职业到个人都有,比如一篇名为“Grumpy Rumblings”的博客,由两位匿名的学者共同撰写,其中一位最近写到了他们的伴侣失业是如何影响了夫妻的税收。此外,C4数据集中还有一些专注于真人角色扮演游戏的顶级博客。

社交网络如Facebook和Twitter等(它们被视为现代网络的核心)的内容被禁止抓取,这意味着用于训练人工智能的大多数数据集都无法访问它们。Facebook和谷歌等科技巨头坐拥海量对话数据,但他们还不清楚如何使用个人用户信息来训练内部使用或作为产品销售的人工智能模型。

新闻和媒体网站是所有类别中排名第三,而前十位网站中有半数是新闻媒体:《纽约时报》网站排名第四,《洛杉矶时报》网站排名第六,《卫报》网站排名第七,《福布斯》网站排在第八位,《赫芬顿邮报》网站排名第九,《华盛顿邮报》网站排名第11位。与艺术家和创作者一样,多家新闻机构也批评科技公司在未经授权或提供补偿的情况下使用他们的内容。

与此同时,《华盛顿邮报》还发现有几家媒体在NewsGuard的独立可信度评级中排位较低:比如俄罗斯RT(第65位)、极右翼新闻网站breitbart(第159位)以及与白人至上主义有关的反移民网站vdare(第993位)。

聊天机器人已经被证明可以分享错误信息。不可信的训练数据可能导致它们传播偏见、宣传错误信息,而用户却无法追踪到它们的原始来源。

社区网站约占分类内容的5%,主要是宗教网站。

过滤器漏网之鱼有哪些?

像大多数公司一样,谷歌在将数据提供给人工智能之前,会对数据进行过滤和筛查。除了去除无意义和重复的文字外,该公司还使用了开源的“不良词汇列表”,其中包括402个英文术语和一个表情符号。公司通常使用高质量的数据集来微调模型,从而屏蔽用户不想看到的内容。

虽然这类列表旨在限制模型在接受培训时受到种族诽谤和不良内容的影响,但很多东西都通过了过滤器的筛查。《华盛顿邮报》发现了数百个色情网站和超过7.2万个“纳粹”例子,它们都在禁用词汇列表中。

特斯拉一句话

与此同时,《华盛顿邮报》发现,这些过滤器未能删除某些令人不安的内容,包括白人至上主义网站、反跨性别网站以及以组织针对个人骚扰活动而闻名的匿名留言板4chan。研究中还发现了宣传阴谋论的网站。

你的网站有没有用于训练AI?

网络抓取听上去可能像是对整个互联网进行复制,但实际上它只是收集快照,即对特定时刻的网页样本抓取内容。C4数据集最初是由非营利组织CommonCrawl创建的,于2019年4月进行网络内容抓取,是人工智能模型训练的热门资源。CommonCrawl表示,该组织试图优先考虑最重要和声誉最好的网站,但没有试图避免授权或版权保护的内容。

折叠屏手机和iphone手机哪个更好

《华盛顿邮报》认为,将数据的完整内容呈现在人工智能模型中至关重要,这些模型有望管理人们现代生活的许多方面。然而,这个数据集中的许多网站包含高度攻击性语言,即使模型训练时尽量掩盖这些词语,令人反感的内容仍然可能会存在。

专家表示,尽管C4数据集很庞大,但大型语言模型可能会使用更大的数据集。例如,OpenAI在2020年发布了GPT-3训练数据,其数据量是C4中网络抓取数据量的40倍。GPT-3的培训数据包括所有英文维基百科、大型科技公司经常使用的、未出版作家的免费小说集以及Reddit用户高度评价的链接文本汇编。

专家表示,许多公司甚至没有记录培训数据的内容(甚至是内部数据),因为担心发现有关可识别身份的个人信息、受版权保护的材料和其他未经同意被窃取的数据。随着公司强调解释聊天机器人如何做出决策面临的挑战,这是高管们需要给出透明答案的领域。 (小小)


返回网站首页

本文评论
腾讯或已成立XR扩展现实部门 押注元宇宙
(ChinaZ.com) 6月21日消息:据路透社报道,三位知情人士称,腾讯控股周一向其员工宣布正式成立「扩展现实」(XR)部门,正式押注虚拟世界的元宇宙概念。消息人士称,该部门的任务是为腾...
日期:08-01
美团市值跌_美团股价暴跌,腾讯回应清仓传闻:不予置评
(原标题:美团午后大跌超10%,腾讯回应:不评论市场传言) 8月16日午后,受“腾讯可能剥离美团”传闻影响,美团(03690.HK)大跌超10%,成交额...
日期:08-20
华为云DDS_华为云数据库DDS新功能上线,732天超长数据备份
  日前,华为云文档数据库 DDS 备份新功能上线,新功能支持任意时间点实例恢复、主备实例自动切换,数据备份保存和可恢复时间最长支持732天,且备份空间 100% 免费赠送。新功能...
日期:04-27
ar市场总监「谷歌 AR 和 VR 业务负责人宣布将离职创办人工智能公司」
2月9日消息:据CNBC报道,谷歌 AR 和 VR 业务的负责人 Clay Bavor 即将在下个月从谷歌离职,与前Salesforce公司的联合首席执行官布Bret Taylor一起建立一家专注于人工智能的创业...
日期:02-09
腾讯兄弟公司的惊魂一日
mate 20 发布时间   撰文/周享玥 何畅   编辑/董雨晴   ;一下午跌没了千亿市值   赶在腾讯发布半年报业绩前一天,多家腾讯系公司罕见地被一则出乎意料的传言打了个...
日期:08-17
5G手机再添猛将 联想Z6 Pro 5G京东抢先发售(vivoz6 5g手机参数)
  11月1日,三大运营商正式公布5G套餐,这意味着全球规模最大的5G市场正式启动,5G离我们的生活越来越近,对于用户来说,想要尝鲜5G就差一个5G手机了。   11月15日,联想也正式加...
日期:06-19
饷店 爱库存_两百万饷店店主的选择,爱库存助力创业者创业
  近年来,爱库存平台广泛吸纳怀抱创业梦想的创业者,成为创业者汇聚的新高地,爱库存俨然成为两百万饷店店主的第一选择,成为培育创业者的电商平台。   创业者之所以选择...
日期:03-14
腾讯2022年营收5546亿,四季度营收1449.5亿__2020年腾讯营收
3月22日消息,腾讯控股发布2022年第四季度及全年财报。财报显示,腾讯2022年收入同比下降1%至5546亿。腾讯第四季度营收1449.5亿元,同比增长1%;四季度净利润1062.7亿元,同比增长12%...
日期:03-24
Epic免费送《死亡搁浅》导剪版被换标准版!官方回应:临时工搞错
Epic游戏商城最近开启了年终大促,活动的15天内每天都会有一款游戏送出,今天已经是第11天。今天零点,第11款游戏准时上线,可以免费领取小岛秀夫的《死亡搁浅导演剪辑版》,领取时间...
日期:12-26
调查:2011年非iPad平板份额有望达到50%(iPad份额)
【赛迪网讯】5月15日消息,据国外媒体报道,市场调研机构DIGITIMES Research指出,就整体平板设备市场分配来看,根据DIGITIMES Research分析,尽管2011年下半年苹果以外的平板设备厂...
日期:07-28
诺贝尔经济学奖微观「2022诺贝尔经济学奖公布 3名研究金融危机的美国经济学家获奖」
2022年诺贝尔奖中的科学类奖及文学奖、和平奖已经陆续公布,今晚经济学奖也公布了,3名美国经济学家获得今年的大奖,奖金也是1000万瑞典克朗,约合640多万人民币,12月10日颁奖。vmwa...
日期:10-14
“盲盒经济”能让唱片店起死回生吗?_卖盲盒音乐
声明:本文来自于微信公众号 音乐先声(ID:nakedmusic),作者:丁茜雯 ,授权转载发布。线下实体唱片店,正在接受一轮新“改造”。自春节假期以来,名为“抽卡机”的销售玩法在北京、杭...
日期:03-07
报告显示电子游戏产业整体遭受寒冬(电子游戏行业现状分析)
8月13日消息,据国外媒体报道,美国市场研究公司NPD近日发布调查报告显示,通过零售渠道销售的电子游戏(含硬件)销售额遭受重创,整个产业遭遇前所未有的寒冬。 据数据显示,整个游戏...
日期:07-22
3500万粉丝网红争端尘埃落定:浪胃仙账号仍属于原公司「浪胃仙真名叫什么」
去年,拥有3500万粉丝的吃播网红浪胃仙”账号引发争端,经过法院审理之后,账号被判属原公司。比亚迪方向盘怎么解锁资料显示,近日,重庆天权星文化传媒有限公司与浪胃仙(重庆)文化传媒...
日期:04-06
主播收入增长447%,近期视频号变现动作不断,创作者的机会在哪?
声明:本文来自于微信公众号 西瓜数据(ID:xiguashuju),作者:肉团,授权转载发布。在腾讯2022年公布的四季报及全年年报中,关于视频号有几个重点:1、在聊天和非聊天场景增长的推动下...
日期:04-19
效仿特斯拉 福特下调电动SUV Mustang Mach-E系列车型价格
1月31日消息,据国外媒体报道,在特斯拉降价几周之后,福特汽车也宣布Mustang Mach-E电动SUV降价,该系列车型平均降价4500美元,最高降价5900美元。福特官网显示,价格最低的Mach-E Sel...
日期:01-31
辛选集团向广州市捐赠100万元防疫物资
10 月 31 日消息,辛选集团发布消息称,近日,广州市多地爆发新-轮本土新冠疫情,疫情防控形势严竣复杂,防疫物资需求较大。作为广州本土企业,辛选集团在其创始人辛有志的组织协调下,迅...
日期:11-01
稳稳的薅羊毛机会! 参与快狗打车“车贴活动”瓜分超值大奖
  转眼到了11月的最后一周,2019年的余额已经不足40天,那些你在年初立下的flag,减肥、赚钱、脱单、好好工作,或者只是每天按时吃饭早睡早起这样的小目标,都完成了吗?   ...
日期:05-15
摸你黑云南狂欢节视频「云南“摸你黑”节来了:泥土抹全身 仅剩眼睛和牙齿」
据都市时报消息,近日,云南泼水节还没过完,佤族摸你黑”狂欢节已开始预演。人们用天然原料配制的娘布洛”涂料相互涂抹,祝福平安健康。节日现场热闹非凡,游客们被抹黑”全身只有眼...
日期:04-17
百度正以一个更加开放的态度参与建立互联网产业链(百度互联网运营)
  视频行业是一个烧钱的行当,除了带宽、服务器等巨额投入外,影视剧、电影等正版内容资源更是一个无底洞。幸运的是,从2005年成立以来,虽然视频领域竞争激烈,淘汰率高,风行网凭...
日期:07-27