您的位置:首页 > 互联网

deepin书籍「有效上下文提升20倍!DeepMind发布ReadAgent框架」

发布时间:2024-04-07 12:54:43  来源:互联网     背景:

声明:本文来自于微信公众号 新智元(ID:AI_era),作者:新智元,授权转载发布。

【新智元导读】模仿人类阅读过程,先分段摘要再回忆,谷歌新框架ReadAgent在三个长文档阅读理解数据集上取得了更强的性能,有效上下文提升了3-20倍。

deepin editor

基于Transformer的大语言模型(LLM)具有很强的语言理解能力,但LLM一次能够读取的文本量仍然受到极大限制。

除了上下文窗口较小外,LLM的性能会随着输入内容长度的增加而下降,即便输入内容未超过模型的上下文窗口长度限制也是如此。

相比之下,人类却可以阅读、理解和推理很长的文本。

LLM和人类在阅读长度上存在差异的主要原因在于阅读方法:LLM逐字地输入精确的内容,并且该过程相对被动;但过于准确的信息往往会被遗忘,而阅读过程更注重理解模糊的要点信息,即不考虑准确单词的内容能记忆更长时间。

人类阅读也是一个互动的过程,比如回答问题时还需要从原文中进行检索。

为了解决这些限制,来自Google DeepMind和Google Research的研究人员提出了一个全新的LLM系统ReadAgent,受人类如何交互式阅读长文档的启发,将有效上下文长度增加了20倍。

论文链接:https://arxiv.org/abs/2402.09727

受人类交互式阅读长文档的启发,研究人员将ReadAgent实现为一个简单的提示系统,使用LLMs的高级语言功能:

1. 决定将哪些内容存储在记忆片段(memory episode)中;

2. 将记忆片段压缩成称为要点记忆的简短片段记忆,

3. 如果ReadAgent需要提醒自己完成任务的相关细节,则采取行动(action)来查找原始文本中的段落。

在实验评估中,相比检索、原始长上下文、要点记忆(gist memories)方法,ReadAgent在三个长文档阅读理解任务(QuALITY,NarrativeQA和QMSum)上的性能表现都优于基线,同时将有效上下文窗口扩展了3-20倍。

ReadAgent框架

1. 要点记忆(gist memory)

要点记忆是原始长上下文中文本块的短要点的有序集合,构建gist记忆有两个步骤:分页(pagination)和记忆提要(memory gisting)。

片段分页(episode pagination)

当ReadAgent阅读长文本时,通过选择暂停阅读的位置来决定在记忆片段中存储哪些内容。

每一步都会为LLM提供部分文本,从上一个暂停点开始,并在达到最大单词数限制时结束;提示LLM选择段落之间的哪个点将是自然的暂停点,然后将前一个和当前暂停点之间的内容视为一个episode,也可以叫做页(page)。

记忆提要(memory gisting)

对于每一页,提示LLM将确切的内容缩短为要点或摘要。

2. 并行和顺序交互查找

由于要点记忆与页相关,所以只需提示LLM来找出哪一页更像是答案,并在给定特定任务的情况下再次阅读,主要有两种查找策略:同时并行查找所有页面(ReadAgent-P)和每次查找一个页面(ReadAgent-S)。

ReadAgent-P

比如说,在问答任务中,通常会给LLM输入一个可以查找的最大页数,但也会指示其使用尽可能少的页面,以避免不必要的计算开销和干扰信息(distracting information)。

ReadAgent-S

顺序查找策略中,模型一次请求一页,在决定展开(expand)哪个页面之前,先查看之前展开过的页面,从而使模型能够访问比并行查找更多的信息,预期在某些特殊情况下表现得更好。

但与模型的交互次数越多,其计算成本也越高。

3. 计算开销和可扩展性

片段分页、记忆提要和交互式查找需要迭代推理,也存在潜在的计算开销,但具体开销由一个小因子线性约束,使得该方法的计算开销不会输入长度的增加而剧烈提升。

由于查找和响应大多是条件要点(conditioned gists)而非全文,所以在同一上下文中的任务越多,成本也就越低。

4. ReadAgent变体

当使用长文本时,用户可能会提前知道要解决的任务:在这种情况下,提要步骤可以在提示中包括任务描述,使得LLM可以更好地压缩与任务无关的信息,从而提高效率并减少干扰信息,即条件ReadAgent

更通用的任务设置下,在准备提要时可能不知道具体任务,或者可能知道提出的要点需要用于多个不同的任务,例如回答关于文本的问题等。

因此,通过排除注册步骤中的任务,LLM可以产生更广泛有用的提要,代价是减少压缩和增加干扰注意力的信息,即非条件ReadAgent。

这篇论文中只探讨了无条件设置,但在某些情况下,条件设置可能更有优势。

迭代提要(iterative gisting)

雷蛇灵刃固态升级

对于一段很长的事件历史,例如对话等,可以考虑通过迭代提要来进一步压缩旧记忆来实现更长的上下文,对应于人类的话,旧记忆更模糊。

实验结果

研究人员评估了ReadAgent在三个长上下文问答挑战中的长文档阅读理解能力:QuALITY、NarrativeQA和QMSum。

虽然ReadAgent不需要训练,但研究人员仍然选择在训练集上开发了一个模型并在验证、测试和/或开发集上进行了测试,以避免过拟合系统超参数的风险。

选用的模型为指令微调后的PaLM2-L模型。

评估指标为压缩率(compression rate, CR),计算方法如下:

LLM评分器

NarrativeQA和QMSum都有一个或多个自由形式的参考回复,通常使用诸如ROUGE-F之类的语法匹配度量来评估。

除此之外,研究人员使用自动LLM评分器来评估这些数据集,作为人工评估的替代方法。

领势和华为

上面两个提示中,严格LLM评分器提示用于判断是否存在精确匹配,许可LLM评分器提示用于判断是否存在精确匹配或部分匹配。

基于此,研究人员提出了两个评价指标:LLM-Rating-1(LR-1)是一个严格的评估分数,计算所有示例中精确匹配的百分比;LLM-Rating-2(LR-2)计算精确匹配和部分匹配的百分比。

长上下文阅读理解

QuALITY

QuALITY是一个多选问答任务,每个问题包含四个答案,使用来自多个不同来源的文本数据。

实验结果显示,ReadAgent(查找1-5页)实现了最好的结果,压缩率为66.97%(即提要后上下文窗口中可以容纳3倍的token)。

当增加允许查找的最大页数(最多5页)时,性能会不断提高;在6页时,性能开始略有下降,即6页上下文可能会增加干扰信息。

NarrativeQA

在三个阅读理解数据集中,NarrativeQA的平均上下文长度最长,为了将gists放入上下文窗口,需要扩展页面的尺寸大小。

提要对Gutenburg文本(书籍)的压缩率为96.80%,对电影剧本的压缩率为91.98%

QMSum

QMSum由各种主题的会议记录以及相关问题或说明组成,长度从1,000字到26,300字不等,平均长度约为10,000字,其答案是自由形式的文本,标准的评估指标是ROUGE-F

可以看到性能随着压缩率的降低而提高,因此查找更多页面的技术往往比查找更少页面的技术做得更好。

还可以看到ReadAgentS大大优于ReadAgent-P(以及所有基线),性能改进的代价是检索阶段的请求数量增加了六倍。

参考资料:

https://arxiv.org/abs/2402.09727


返回网站首页

本文评论
跟随佳能和尼康淘汰数码单反相机,消息称哈苏 H 系统全线停产「哈苏h系列机身的区别」
IT之家 5 月 16 日消息,第三方供应商 Capture Integration 称,哈苏下发官方通知,宣布 H System 全线产品正式停产,所有产品现已缺货,哈苏将不再接受 H 系列任何产品的订单。如果...
日期:05-16
越喷越买!吐槽理想“冰箱彩电大沙发”真的是帮它打广告_理想电视什么时候停产
刚刚过去的6月,理想汽车月度交付量首次突破3万辆,成为继奔驰、宝马、奥迪和特斯拉之后,第五家月交付量突破3万辆的豪华品牌,也是唯一一家月交付量超过3万辆的中国豪华品牌。提到...
日期:07-12
主摄硬件无升级!三星Galaxy S24 Ultra将依靠软件优化拍摄质量
快科技4月26日消息,近日,爆料人Yogesh Brar透露消息,称三星Galaxy S24 Ultra将依靠软件优化拍摄质量。根据Yogesh Brar的说法,Galaxy S24 Ultra将依旧沿用ISOCELL HP2这颗主摄,而...
日期:04-26
中兴通讯携手中国移动咪咕亮相ChinaJoy,展示全球首个裸眼3D云游戏解决方案
(2023年7月28日,上海)近日,中兴通讯旗下努比亚nubia品牌在中国最 大的国际游戏展览会ChinaJoy上展示了多款生态产品,其中最引人注目的是基于全球首款AI裸眼3D平板电脑nubia Pad3D...
日期:07-29
消息称iPhone 15 Pro配备钛合金_iphone钛合金边框
根据消息,iPhone 15系列将在8月开始投入量产,并且首批备货量相当庞大,其中Pro系列将继续担任主力角色。同时,海外知名爆料者曝光了iPhone 15 Pro的最新渲染图,展示了该款手机的外...
日期:07-10
10分钟补能续航超300公里!合肥首条氢燃料电池公交线路开通_合肥氢气充气点
快科技1月20日消息,据合肥发布”官方,今日上午,合肥市首批氢能公交在长丰县下塘镇正式上线运营,全市首条氢燃料电池公交线路也正式开通运营,合肥新能源汽车实现氢能零的突破!首批...
日期:01-20
中国移动全球合作伙伴大会,今年的形式「2023中国移动全球合作伙伴大会启幕 咪咕“黑科技”强势吸睛」
10月11日至13日,以“算启新程 智享未来”为主题的2023中国移动全球合作伙伴大会在广州保利世贸博览馆召开,中国移动携手数百位合作伙伴展示在算力网络、智慧中台、6G、AI大...
日期:10-11
传Coinbase因加密货币上市问题面临SEC审查(coinbase上币信息)
文/魏昊铭   据三位知情人士透露,Coinbase正面临美国方面的调查,调查内容是该公司是否不当地允许美国人交易本应注册为证券的数字资产。两位不愿透露姓名的人士表示,自从Coin...
日期:07-31
特斯拉马斯克人脑「一大波特斯拉人形机器人上线,马斯克震撼官宣2款新车!」
声明:本文来自于微信公众号 新智元(ID:AI_era),作者:新智元,授权转载发布。【新智元导读】这次特斯拉股东日,虽没有新车,但马斯克确定Cybertruck今年一定会来。极米属于什么档次特斯...
日期:05-17
物业为阻止业主装吊窗引冲突 后续:已安全下来_物业要求吊装合法吗
3月11日,在四川德阳发生了一起物业与业主之间的冲突事件。为什么投屏没广告k30至尊纪念版 小米10至尊纪念版当时,一位业主试图安装吊窗,而物业方面出于某种原因试图阻止这一行...
日期:03-13
成都云计算中心,十年铸就云上蓉城(成都 云计算)
  2009年12月28日,由中科曙光投资建设的成都云计算中心建成启动仪式在成都市高新区隆重举行,标志着我国首家以企业投资、运营和管理,政府购买服务形式建设,商业化运营的城市...
日期:08-19
携程将于今日上午10点开始发放贵州文旅消费券吗「携程将于今日上午10点开始发放贵州文旅消费券」
10月12日消息,为提振贵州旅游消费,促进贵州省文旅产业恢复,帮助文旅企业纾困,带动省内及周边出游,2022年秋冬季,贵州省文化和旅游厅联合携程集团开展“体验多彩贵州·乐享温暖人生...
日期:10-17
“冰雪大世界”的冰块,原来是这样从松花江里搬过来的~_冰雪大世界百度百科
我曾经想当然以为,哈尔滨的冰雕,是用制冰机做的大冰块。然后去年看到了这个图,冰里居然冻着鱼?!冷冷的冰鱼,唱!苹果正式发布iOS 15升级搜了下才知道,原来我们不生产冰,我们只是大自然...
日期:12-29
秒出PPT——引领智能演示新潮流_ppt 秒表
在数字化时代,信息的快速传递和有效展示成为了企业和个人成功的关键。杭州简则智能科技有限公司凭借其在人工智能领域的深厚技术积累,推出了一款名为“秒出PPT”的革命性产品,...
日期:03-29
iPhone漏洞_iPhone4S漏洞现漏洞 能在被锁下被盗用
  10月20日消息,据国外媒体报道,信息安全公司 Sophos 周三发布警告,苹果最新推出的智能手机 iPhone 4S 主打的 Siri 声控功能,会在手机密码锁住的情况下,还能允许任何人用该手...
日期:07-24
买顶配不选骁龙888要6nm芯?放弃跑车开小面,不是内味了_骁龙888 7nm
  关注手机科技圈的小伙伴对骁龙芯片应该都比较熟悉,多年来,骁龙系列芯片凭借出色的性能受到众多手机厂商和消费者的青睐。上到高端旗舰,下至5G百元手机,搭载高通骁龙系列芯...
日期:07-10
优酷iPad2客户端升级打体验牌 便捷与高清合璧(ipad2下载不了优酷)
  作为国内最早全站支持苹果iPad的视频网站,优酷的HD客户端也同期于去年上线,并在今年5月iPad2上市前进行客户端升级,推出了对应支持苹果iPad2的优酷客户端。   最新推出...
日期:07-30
可让全球软件速度更快,DeepMind人工智能创造出比人类快70%的排序算法
6 月 8 日消息,谷歌旗下 DeepMind 开发的人工智能 AlphaDev 创造了一种新的数据排序方法,比人类程序员设计的算法快了 70%,这一发现可能让全球数以百万计的软件运行得更快。数...
日期:09-25
韩国一男子因利用AI创作虐待儿童图像被判刑
本文概要:- 韩国法官首次以AI生成的儿童虐待图像为由判刑。- 一名40多岁男子因拥有约360张虐待性质的AI生成儿童图像被判刑两年多监禁。- 检察官成功主张将“性虐待材料”的...
日期:10-03
台风达维或造成海水倒灌日本:让核污染水更加远离中国「台风达耶」
8月25日,今年第10号台风达维”生成,28-29日将影响日本东部沿海地区。届时,太平洋或将三台风共舞,台风达维、海葵”有可能将海水回灌日本,让核污染水更加远离中国。李开复在中国有...
日期:08-25