您的位置:首页 > 互联网

「字少信息量大」,Salesforce、MIT 研究者手把手教 GPT-4「改稿」,数据集已开源

发布时间:2023-09-18 14:21:56  来源:互联网     背景:

声明:本文来自于微信公众号 机器之心(ID:almosthuman2014),作者:机器之心,授权转载发布。

近年来,自动摘要技术取得了长足的进步,这主要归功于范式的转变 —— 从在标注数据集上进行有监督微调转变为使用大语言模型(LLM)进行零样本 prompt,例如 GPT-4。不需要额外的训练,细致的 prompt 就能实现对摘要长度、主题、风格等方面特征的精细控制。

但一个方面常常被忽视:摘要的信息密度。从理论上讲,作为对另一个文本的压缩,摘要应该比源文件更密集,也就是包含更多的信息。考虑到 LLM 解码的高延迟,用更少的字数涵盖更多的信息非常重要,尤其是对于实时应用而言。

然而,信息量密度是一个开放式的问题:如果摘要包含的细节不足,那么相当于没有信息量;如果包含的信息过多,又不增加总长度,就会变得难以理解。要在固定的 token 预算内传递更多信息,就需要将抽象、压缩、融合三者结合起来。

小米11Ultra24期免息

在最近的一项研究中,来自 Salesforce、MIT 等机构的研究者试图通过征求人类对 GPT-4生成的一组密度越来越高的摘要的偏好来确定这一限制。对于提升 GPT-4等大语言模型的「表达能力」,这一方法提供了很多启发。

论文链接:https://arxiv.org/pdf/2309.04269.pdf

数据集地址:https://huggingface.co/datasets/griffin/chain_of_density

具体来说,他们将每个 token 的平均实体数量作为密度的代表,生成了一个初始的、实体稀少的摘要,然后在不增加总长度(总长度为5倍)的情况下,反复识别并融合前一个摘要中缺失的1-3个实体,每个摘要的实体与 token 比例都高于前一个摘要。根据人类的偏好数据,作者最终确定,人类更喜欢几乎与人类编写的摘要一样密集的摘要,而且比普通 GPT-4prompt 生成的摘要更密集。

总体来说,该研究的贡献包括:

  • 开发一种基于 prompt 的迭代方法 (CoD),使得摘要的实体密度越来越高;

  • 对 CNN/《每日邮报》文章中越来越密集的摘要进行人工和自动评估,以更好地了解信息量(倾向于更多实体)和清晰度(倾向于更少的实体)之间的权衡;

  • 开源了 GPT-4摘要、注释和一组5000篇未注释的 CoD 摘要,用于评估或提炼。

什么是 CoD

作者制定了一个单一的密度链(CoD)Prompt,即生成一个初始摘要,并使其实体密度不断增加。具体来说,在一个固定的交互次数中,源文本中一组独特的突出实体被识别出来,并在不增加长度的情况下融合到之前的摘要中。

图2显示了 Prompt 和输出示例。作者没有规定实体的类型,而是将缺失实体定义为:

  • 相关:与主要故事相关;

  • 具体:描述性的但简洁(5个字或更少);

  • 新颖:未出现在之前的摘要中;

  • 忠实:存在于文章中;

  • 任何地方:位于文章的任何地方。

作者从 CNN/DailyMail 摘要测试集中随机抽取了100篇文章,为其生成 CoD 摘要。为便于参考,他们将 CoD 摘要统计数据与人类撰写的要点式参考摘要以及 GPT-4在普通 Prompt 下生成的摘要进行比较:「写一篇非常简短的文章摘要。请勿超过70个字。」

统计情况

在研究中,作者从直接统计数据和间接统计数据两方面进行了总结。直接统计数据(token、实体、实体密度)由 CoD 直接控制,而间接统计数据则是密集化的预期副产品。

直接统计数据。如表1所示,由于从最初冗长的摘要中删除了不必要的词语,第二步平均减少了5个 token(从72到67)的长度。实体密度从0.089开始,最初低于人类和 Vanilla GPT-4(0.151和0.122),经过5步密集化后,最终上升到0.167。

iPhone 卫星

间接统计。抽象度应该会随着每一步 CoD 的进行而增加,因为每增加一个实体,摘要就会被反复改写以腾出空间。作者用提取密度来衡量抽象性:提取片段的平均平方长度 (Grusky et al.,2018)。同样,随着实体被添加到固定长度的摘要中,概念融合度也应随之单调增加。作者用与每个摘要句子对齐的源句子的平均数量来表示融合度。在对齐上,作者使用相对 ROUGE 增益法 (Zhou et al.,2018),,该方法将源句与目标句对齐,直到额外句子的相对 ROUGE 增益不再为正。他们还预计内容分布(Content Distribution),也就是摘要内容所来源的文章中位置,会发生变化。

具体来说,作者预计 CoD 摘要最初会表现出强烈的「引导偏向」(Lead Bias),但随后会逐渐开始从文章的中间和末尾引入实体。为了测量这一点,他们使用了融合中的对齐结果,并测量了所有对齐源句的平均句子等级。

图3证实了这些假设:抽象性随着重写步骤的增加而增加(左侧提取密度较低),融合率上升(中图),摘要开始纳入文章中间和末尾的内容(右图)。有趣的是,与人类撰写的摘要和基线摘要相比,所有 CoD 摘要都更具抽象性。

结果

为了更好地理解 CoD 摘要的 tradeoff,作者开展了一项基于偏好的人类研究,并使用 GPT-4进行了基于评级的评估。

人类偏好。具体来说,对于同样的100篇文章(5个 step *100= 总共500篇摘要),作者向论文的前四位作者随机展示了经过「重新创作」的 CoD 摘要以及文章。根据 Stiennon et al. (2020) 对「好摘要」的定义,每位注释者都给出了自己最喜欢的摘要。表2报告了各注释者在 CoD 阶段的第一名得票情况,以及各注释者的汇总情况。总的来说,61% 的第一名摘要(23.0+22.5+15.5)涉及≥3个致密化步骤。首选 CoD 步数的中位数位于中间(3),预期步数为3.06。

根据 Step3摘要的平均密度,可以大致推断出所有 CoD 候选者的首选实体密度为 ∼0.15。从表1中可以看出,这一密度与人类编写的摘要(0.151)相一致,但明显高于用普通 GPT-4Prompt 编写的摘要(0.122)。

自动度量。作为人工评估的补充(如下),作者用 GPT-4从5个维度对 CoD 摘要进行评分(1-5分):信息量、质量、连贯性、可归属性和整体性。如表3所示,密集度与信息量相关,但有一个限度,在步骤4(4.74)时得分达到顶峰。

从各维度的平均得分来看,CoD 的第一个和最后一个步骤得分最低,而中间三个步骤得分接近(分别为4.78、4.77和4.76)。

定性分析。摘要的连贯性 / 可读性与信息量之间存在着明显的 trade-off。图4中展示了两个 CoD 步骤:一个步骤的摘要因更多细节而得到改善,另一个步骤的摘要则受到损害。平均而言,中间 CoD 摘要最能实现这种平衡,但这种 tradeoff 仍需在今后的工作中去精确定义和量化。

更多论文细节,可参考原论文。


返回网站首页

本文评论
五大好消息, 中国院士预言成真! 外媒, 早知道就不封锁芯片了!
极品飞车ngc早在3月,首届玄铁RISC-V生态大会上,中国工程院院士倪光南就强调了,RISC-V架构是解决卡脖子技术的唯一途径,必将在中国前所未有的发展,摆脱以美国为首西方国家的技术垄...
日期:08-26
上调幅度2000到6000元!比亚迪宣布调整相关车型官方指导价_比亚迪降价周期
12月31日消息,今日,比亚迪汽车官方发布关于车型价格正式调整的通知”,决定自2023年1月1日起,对相关车型官方指导价进行正式调整,上调幅度为2000-6000元不等。同时,通知”明确新价...
日期:12-31
对标苹果iPhone 14?小米13高清渲染图首曝!6.2寸小屏+直角边「小米11对比苹果13图片」
继小米13 Pro后,爆料大神Onleaks同时分享了小米13外形高清渲染图。可以看到,小米13正面采用一块非曲面的直屏,依然是中央挖孔。四周的边框很窄,而且看起来像是做到了四边等宽。...
日期:11-08
一站购 京东家电家居参展AWE2023展现家电行业升级趋势 「焕新家」_京东家电采购商平台
时隔两年,以“智科技 创未来”为主题的中国家电及消费电子博览会(AWE2023)终于在4月27日于上海隆重召开。作为全球三大消费电子展之一,本届AWE的重新召开吸引了来自全球各个行业...
日期:09-17
Redmi首款平板马上发布 和Redmi Note 12一起亮相_redmi会出平板吗
中关村在线消息:10月4日,Redmi首款平板Redmi Pad在国外市场正式发布,一起发布的还有小米12T系列。作为首款平板,依旧走了Redmi的入门性价比路线,Redmi Pad 在印度市场提供 3GB+64...
日期:10-10
飞腾联合13家生态伙伴重磅发布5G生态解决方案白皮书「飞腾生态与华为生态」
5 月 19 日下午,第七届世界智能大会“算力飞腾赋智未来”高端论坛在国家会展中心(天津)成功举办。飞腾携手同泰怡、京信、亚信、浪潮、爱瑞、沐创、中电互联、爱浦路等 13 家...
日期:05-22
台积电全球研发中心今日启用,探索2纳米及1.4纳米以下制程工艺「台积电2纳米芯片」
通信世界网消息(CWW)台积电全球研发中心今日在台湾地区新竹市正式启用,台积电董事长刘德音宣布新中心将探索 2 纳米甚至 1.4 纳米以下尖端技术。据悉,该研发中心将成为台积电研...
日期:07-28
今年首个台风红色预警!“杜苏芮”来袭:预计明日登陆福建、广东
中央气象台7月26日10时发布台风红色预警:今年第5号台风杜苏芮”(DOKSURI)(超强台风级)的中心今天(26日)上午8点钟位于我国台湾省鹅銮鼻偏南方大约350公里的巴士海峡南部海面上...
日期:07-26
百度度小满开源千亿参数金融大模型“轩辕”_百度金融变身“度小满” a轮融资逾19亿美元
5月26日 消息:百度旗下度小满宣布正式开源国内首个千亿级中文金融大模型——"轩辕"。NFC支付解决方案该大模型是在拥有1760亿个参数的Bloom大模型基础上进行训练的,能够更好...
日期:05-26
“未来电池”淘宝开卖,钠电池技术怎么被搞定了?「钠电池知乎」
最近托尼在网上上冲浪的时候,发现淘宝上竟然有个商家在卖标准 18650 形状的钠离子电池电芯。汽车之家 比亚迪海豚4000 mWh 一节,只要三块钱!要知道,与这些钠电容量相似的 5500mW...
日期:08-02
最强火箭“星舰”为何爆炸,马斯克是失败还是成功了?_马斯克星舰发射成功
凤凰网科技讯 北京时间4月21日消息,经过一次跳票后,美国太空探索技术公司(SpaceX)的超强火箭系统“星舰”终于发射。尽管对于它的失败有些心理预期,但是速度之快还是让人始料不及...
日期:04-21
美发明三维“食物打印机” 邮件发食谱即可打印
  美国研究人员研制出三维“食物打印机”,可运用食材“墨水”打印出饼干、苹果派等多种食物,打破传统烹饪理念,创新食品加工思路。研究人员研制的这种食物 打印机主要由注射...
日期:07-25
cpcp视频「聊聊短剧CPS的机会和坑」
声明:本文来自于微信公众号 老胡地盘(ID:laohudipan88),作者:老胡,授权转载发布。一、前言最近几个月主要在忙些具体项目的相关事情,同时也花了不少精力在做我们私董会相关的交付...
日期:06-16
月活超3.3亿 每天平均刷96分钟 B站财报后股价火箭蹿升18%「B站2019年Q1财报:亏损1.5亿元,月活用户破亿」
11月29日下午,哔哩哔哩(简称B站)发布了Q3季度财报,表现亮眼,财报发布之后,B站股价大涨,截至发稿时大涨18%以上,股价14.9美元。Q3季度营收为营收58亿元,同比增11%,Q3净亏损为17亿元,较20...
日期:12-02
消息称苹果 iPhone 14 手机壳与上一代通用_苹果11和13的手机壳通用吗
IT之家 9 月 1 日消息,苹果将于下周推出 iPhone 14 / Pro 系列新机,在发布会之前,外媒 9To5Mac 获得了更多信息。iphonexs预售时间首先,苹果 iPhone 14 Plus 的 MagSafe 手机壳...
日期:09-05
OpenAI 总裁回应马斯克对 ChatGPT 的批评:我们犯了一个错误
3月10日消息:OpenAI联合创始人Greg Brockman承认,针对马斯克对的批评,该创业公司 「犯了一个错误」。马斯克在推特上推的币马斯克曾是OpenAI的联合创始人,但后来与该公司断绝了...
日期:03-10
顾客吃米线倒醋洗碗 店家:浪费调料很气愤「米线的醋是陈醋吗」
7月26日消息,山西临汾的一位网友发视频称,他的他的饭店里顾客吃米线倒醋洗碗。饭店的老板表示,收拾桌子时发现垃圾桶好多醋,查监控发现顾客是用醋洗碗了,调料是让顾客吃的,浪费调...
日期:07-27
当武汉人不再搜索“口罩”(武汉站有没有卖口罩的)
  除夕夜过去了。在这个春节,恐怕没有比一个口罩更实在的拜年礼物了,对于处在疫情旋涡中的武汉来说,尤其如此。但从大数据的角度看,“口罩”这个关键词在全国各地的搜索指数...
日期:02-22
重磅!苹果被曝内部测试“苹果GPT”!市值一度几秒暴增600亿美元,股价续创历史新高
美东时间7月19日周三,有媒体爆出,苹果在开发自己的生成式AI工具,去年就创建了打造大语言模型的自有框架,名为Ajax,它旨在统一苹果的机器学习开发。借助Ajax,苹果开发了一种类似Cha...
日期:07-20
巴菲特买入伯克希尔价格「巴菲特旗下伯克希尔大幅减持动视暴雪」
7月18日 消息:最近,微软收购动视暴雪的交易已经接近完成,这看起来是一个非常有前途的交易。然而,被称为“股神”的巴菲特似乎并不看好这笔交易完成后的发展前景。根据最新的监...
日期:07-18