您的位置:首页 > 互联网

GPT-4等大模型更能记住版权书籍的内容 容易导致侵权和社会偏见问题

发布时间:2023-05-05 17:53:16  来源:互联网     背景:

5月5日 消息:一项研究指出了当今大型语言模型的另一个潜在版权问题和文化挑战:一本书越有名和越受欢迎,语言模型就越能记住其内容。

apple watch一代支持哪些iphone

加州大学伯克利分校的研究人员测试了ChatGPT、GPT-4和 BERT 的“背诵”能力。根据这项研究,语言模型记住了“大量受版权保护的材料”。一本书的内容在网上越受欢迎多,语言模型就越能记住其内容。

image.png

根据这项研究,OpenAI 的模型特别擅长记忆科幻小说、奇幻小说和畅销书。其中包括 《1984》、《德古拉》和《弗兰肯斯坦》等经典作品,以及《哈利波特与魔法石》等近期作品。

研究人员将谷歌的 BERT 与 ChatGPT 和 GPT-4进行了比较。“BookCorpus”是一套据称由未知作者创作的免费书籍的训练集,其中包括《丹·布朗》或《五十度灰》的作品。BERT 会记住这些书中的信息,因为这些都数据的一部分。

研究人员写道,一本书在网络上出现的次数越多,大型语言模型对它的记忆就越详细。记忆决定了语言模型执行有关一本书的下游任务的能力:一本书越为人所知,语言模型就越有可能成功地执行诸如命名出版年份或正确识别书中字符等任务。

研究人员主要关注的不是版权问题。相反,他们关心的是使用大规模语言模型进行文化分析的潜在机会和问题,特别是通俗科幻小说和奇幻作品中的共同叙事所造成的社会偏见。

文化分析研究可能会受到大规模语言模型的严重影响,并且根据培训材料中书籍的存在而产生的不同表现可能会导致研究出现偏差。

在此背景下,研究团队有一个明确的诉求:训练数据的公开。

研究人员写道,这些模型特别擅长从流行的叙述中学习,但这些叙述并不代表大多数人的经历。这一事实如何影响大规模语言模型的输出,以及它们作为文化分析工具的有用性,需要进一步研究。

此外,该团队表示,研究表明流行书籍并不是大型语言模型的良好性能测试,它们可能会表现更为出色。


返回网站首页

本文评论
开会神器丨用上华为云WeLink,开会效率高(华为welink功能介绍)
  12月26日,华为云正式对外发布更懂企业的智能工作平台——华为云WeLink,吸引业内人士的广泛关注。   华为云WeLink是集智能高效、安全可靠、开放共赢三大差异化优势点于...
日期:12-16
华米科技2019年度新品发布会锁定14:30,直播平台全攻略_华米发布会直播地址
  8月27日下午14:30,华米科技将在北京举行2019年度新品发布会。昨天下午,华米科技就公布了直播本次发布会的平台,Amazfit官网、小米直播、易直播、KK直播、火猫直播、触电新...
日期:03-01
位居国内日本动画票房榜首:《铃芽之旅》获IGN 9分好评
今天,《铃芽之旅》官方宣布,影片在国内的累积票房突破5.75亿元,超越2016年上映的《你的名字》总票房,成为中国影史日本动画电影票房第一。而紧随其后的,IGN公布了《铃芽之旅》的...
日期:04-04
公司招聘要求农村非独生子女:农村孩子能吃苦 公司不会做“冤大头”
3月3日消息,据九派新闻报道,有网友发文吐槽称一公司招聘外贸业务员,要求是农村孩子且非独生子女,并要求应聘者是应届毕业生或毕业一年以内,或28-35岁已婚已育,该网友称感觉就是想...
日期:03-04
分析聚美优品电子商务网站的商业模式及特点_观察聚美:垂直电商的多元化方法论
  近年来,关于垂直电商的讨论始终不断,社区化、多元化等转型思路不绝于耳。其中,作为垂直电商的老牌劲旅,聚美较早地跨界布局多元业务,已经完成了从垂直电商向时尚科技集...
日期:10-21
游戏一年狂收18亿美元  《原神》动画又能赚多少?_原神游戏最新收入
  记者/温梦华; ;  编辑/张海妮;;  一年狂揽超18亿美元的《原神》要做动画了。  近日,米哈游宣布与全球知名动画制作公司ufotable(飞碟桌)共同制作的《原神》动画正式...
日期:10-01
咨询量暴增满意度逆势提升 宝洁、长虹特殊时期创造新增量:盯住服务数据
  盯住服务数据,这是侯治军思考服务价值最多的一个春节。   作为长虹·美菱中国区电商服务负责人,侯治军日常工作重点集中在物流、营销等环节。然而从除夕开始,侯治军紧紧...
日期:07-23
电脑安全专家:犯罪分子或利用拉登之死传播病毒
  北京时间5月3日早间消息,电脑安全专家周一警告称,网络犯罪分子可能会利用基地组织领导人本·拉登(Osama bin Laden)之死散播病毒。   电脑安全公司Sophos的保罗·杜克林(P...
日期:07-27
麒麟9000版华为P50 Pro上架京东:7288元!_华为P50麒麟9000
近日,搭载麒麟9000芯片的华为P50 Pro 5G手机在京东商城上架,这可是麒麟芯片啊~现店铺售价7288元,欲购从速,先到先得,现在下单还送无线充电器+有线充电套装+蓝牙耳机+三合一数据线...
日期:10-26
淘宝天猫服饰行业,正在孵化新式直播间「天猫女装运营」
声明:本文来自于微信公众号 天下网商(ID:txws_txws),作者:吴羚玮,授权转载发布。近期,淘宝天猫服饰行业正在试跑新的直播间类型,并从中蹿出了几匹直播间“黑马”。据了解,从2022年1...
日期:01-17
字节跳动收购美中宜和,互联网大厂布局私立妇儿医院意欲何为?
黑客攻击学校系统Windows 11优化2021爱分析·数据智能平台厂商全景报告   近日,字节跳动完成对高端私立妇儿医院美中宜和的全资收购。   天眼查信息显示,6月24日美中宜和...
日期:08-11
OPPO K10 Pro 入网(oppok10pro入网)
  OPPO 此前已经宣布,OPPO K10 系列将会首批搭载天玑 8000 芯片,消息称新机将于本月发布。   据推测,OPPO K10 系列将至少存在两款机型,分别是 K10 和 K10 Pro,现在后者已经...
日期:03-11
首发用户赚了!一年前的iPhone 13 Pro渠道价上涨:接近首发价「苹果13pro市场溢价」
今日消息,手机店主测评小铺晒出了iPhone 13 Pro线下渠道报价,全新机价格明显上涨,已经接近首发价格了。如表格所示,iPhone 13 Pro 256GB远峰蓝渠道报价是8800元,比官网首发价格贵...
日期:11-28
俄罗斯也要研发自己的ChatGPT:最快两年搞定 不会伤害人类
快科技4月18日消息,ChatGPT这样的生成式AI火爆全球,各国都想要研发自己的国产版ChatGPT,美国在这方面领先,中国紧追不放,俄罗斯也宣布最快2年内搞定自己的ChatGPT,而且表示绝不会...
日期:04-18
河姆渡方案馆:医院也玩大数据,如何智能化设计?
  如果说疫情期间加快了哪些行业的数字化发展,医疗行业绝对名列前茅。从前不久推出的健康码就可以发现,社会已急需各种手段,去打破大数据行业一直以来存在的桎梏,而医疗业更...
日期:07-15
微信 App 测试朋友圈“修改可见范围”_微信朋友圈功能测试
IT之家 8 月 24 日消息,微信 iOS 平台迎来了 8.0.27 正式版更新。苹果 App Store 显示,微信 iOS 版 8.0.27 正式版解决了一些已知问题,但并未公布具体更新内容。据整理发现,本次...
日期:09-05
visual studio2019和2015_Visual Studio 2022 正式版发布
  11 月 8日晚间,微软发布了 Visual Studio 2022 正式版等诸多内容,Windows 平台软件开发者的福音来了。   编辑和调试周期中的生产力   在 Visual Studio 2022 正式...
日期:07-17
中国广电5G核心网山东节点建设完成(中国广电5G核心网建设)
  据山东广电消息,3 月 23 日,中国广电 5G 核心网山东节点建设完成暨与山东移动共建共享备忘录签约仪式在济南举行。   中国广电山东公司表示,截至 3 月 23 日,已经全面完...
日期:07-18
绿盟科技Cloud-in-a-box荣获“2019年全球卓越奖”
  近日,绿盟科技Cloud-in-a-box荣获硅谷通信《信息安全产品指南》颁发的“2019年全球卓越奖”。硅谷通信作为国际知名信息安全研究和咨询指导机构,其发布的《信息安全产品...
日期:09-04
跨越山海和诊室的智慧新物种
  优质医疗资源的平衡共享是一个世界性难题。新冠疫情席卷全球的情形下,无论是发达国家还是发展中国家,地区间医疗资源分配不均和效率低下的问题再次暴露出来。   为了缓...
日期:07-14