您的位置:首页 > 互联网

GPT-4竟成Nature审稿人?斯坦福清华校友近5000篇论文实测,超50%结果和人类评审一致

发布时间:2023-10-08 00:55:51  来源:互联网     背景:

声明:本文来自于微信公众号新智元(ID:AI_era),作者:新智元,授权转载发布。

【新智元导读】斯坦福学者发现,GPT-4对于Nature、ICLR的论文给出的审稿意见,竟然和人类审稿人有超过50%的相似性。看来让大模型来帮我们审论文,并不是天方夜谭啊。

GPT-4,已经成功晋身审稿人!

最近,来自斯坦福大学等机构的研究者把数千篇来自Nature、ICLR等的顶会文章丢给了GPT-4,让它生成评审意见、修改建议,然后和人类审稿人给出的意见相比较。

论文地址:https://arxiv.org/abs/2310.01783

结果,GPT-4不仅完美胜任了这项工作,甚至比人类做得还好!

在它给出的意见中,超50%和至少一名人类审稿人一致。

并且超过82.4%的作者表示,GPT-4给出的意见相当有帮助。

apple watch se原价

论文作者James Zou总结道:我们仍然需要高质量的人工反馈,但LLM可以帮助作者在正式的同行评审之前,改进自己的论文初稿。

GPT-4给你的意见,可能比人类都好

所以,怎样让LLM给你审稿呢?

非常简单,只要从论文PDF中提取出文本,喂给GPT-4,它就立刻生成反馈了。

具体来说,我们要对一个PDF提取、解析论文的标题、摘要、图形、表格标题、主要文本。

然后告诉GPT-4,你需要遵循业内顶尖的期刊会议的审稿反馈形式,包括四个部分——成果是否重要、是否新颖,论文被接受的理由,论文被拒的理由,改进建议。

从下图可以看到,GPT-4给出了非常有建设性的意见,反馈包括四部分。

这篇论文有什么缺陷?

GPT-4一针见血地指出:虽然论文提及了模态差距现象,但并没有提出缩小差距的方法,也没有证明这样做的好处。

研究者对3,096篇Nature系列论文和1,709篇ICLR论文的人类反馈和LLM反馈进行了对比。

两阶段评论匹配管线会分别提取出LLM和人类反馈中的评论点,然后执行语义文本匹配,来匹配LLM和人类反馈之间的共同评论点。

下图就是一个具体的两阶段评论匹配管线。

对于每条配对评论,相似度评级都会给出理由。

研究者将相似度阈值设为7,弱匹配的评论就会被过滤掉。

在Nature和ICLR两个数据集中,论文和人类评论的平均token长度分别如下。

这项研究有美国110个AI机构和计算生物学机构的308名研究员参与。

每位研究者都上传了自己撰写的论文,看了LLM的反馈,然后填写了自己对于LLM反馈的评价和感受。

结果显示,研究者普遍认为,跟人类评审的结果相比,LLM生成的反馈与之有很大的重叠,通常很有帮助。

如果说有什么缺点的话,就是在具体性上稍差一些。

如下图所示,对于提交给Nature的论文,大约三分之一(30.85%)的GPT-4意见与人类审稿人意见重合。

在ICLR论文中,超过三分之一(39.23%)的GPT-4意见与人类审稿人意见重合。

LLM与人类审稿人,偏重略有不同

以下是对同一篇ICLR论文的LLM评论和人类评论,可以看出,LLM的眼光很毒辣,评论很一针见血。

比如与先前研究的对比上,人类审稿员表示:

比较是有缺陷的。尤其是GNN方法的标签一致性和中心一致性损失都没有考虑到。更公平的比较应该是使用两种损失都考虑到的GNN方法。

而GPT-4的评价是:

论文缺乏与现有方法的彻底的比较。虽然作者对于一些方法比较了基线,但还需要更全面的比较。

在理论可靠性上,人类审稿人给出了这样的意见——

恕我直言,理论的证明太琐碎了。最终结论是如果相似度合适,预测的动作就是准确的。由于模型正在学习正确的相似度,也就相当于说模型h如果经过良好的训练,输出就是正确的。这是显然的事。

而GPT-4的意见是:

作者应该提供更多理论分析,来比较信息传递和一致性约束之间的联系,这样能让读者更易于理解。

在研究的可复现性上,人类审稿员希望论文能够提供代码,好让其他读者也能复现实验。

GPT-4对此也给出了相同意见:作者应该提供有关实验设置的更多详细信息,来确保研究的可复现性。

参与调查的用户普遍认为,LLM的反馈可以帮助提高评审的准确性,减少人类评审员的工作量。而且大多数用户打算再次使用LLM反馈系统。

有趣的是,相比人类审稿人,LLM审稿员有自己独有的特点。

比如,它提及影响因子的频率,是人类审稿人的7.27倍。

人类审稿人会更可能要求补充额外的消融实验ablation experiments,而LLM则会注重于要求在更多的数据集上进行实验。

网友们纷纷表示:这项工作很了不起!

也有人说,其实我早就这么干了,我一直在用各种LLM帮我总结和改进论文。

有人问,所以GPT评审会不会为了迎合如今的同行评审标准,让自己有偏见呢?

也有人提出,量化GPT和人类评审意见的重合,这个指标有用吗?

要知道,在理想情况下,审稿人不应该有太多重合意见,选择他们的原意是让他们提供不同的观点。

不过至少,这项研究让我们知道,LLM确实可以用作改论文神器了。

三步,让LLM给你审稿

1. 创建一个PDF解析服务器并在后台运行:

condaenvcreate-fconda_environment.ymlcondaactivateScienceBeampython-msciencebeam_parser.service.server--port=8080#Makesurethisisrunninginthebackground

2. 创建并运行LLM反馈服务器:

condacreate-nllmpython=3.10condaactivatellmpipinstall-rrequirements.txtcatYOUR_OPENAI_API_KEY>key.txt#ReplaceYOUR_OPENAI_API_KEYwithyourOpenAIAPIkeystartingwith"sk-"pythonmain.py

3. 打开网页浏览器并上传你的论文:

打开https://0.0.0.0:7799并上传论文,就可以在大约120秒内得到LLM生成的反馈。

作者介绍

Weixin Liang(梁伟欣)

Weixin Liang是斯坦福大学计算机科学系的博士生,以及斯坦福人工智能实验室(SAIL)的成员,由James Zou教授的指导。

在此之前,他在斯坦福大学获得电子工程硕士学位,师从James Zou教授和Zhou Yu教授;在浙江大学获得计算机科学学士学位,师从Kai Bu教授和Mingli Song教授。

他曾在亚马逊Alexa AI、苹果和腾讯进行过实习,并曾与Daniel Jurafsky教授、Daniel A. McFarland教授和Serena Yeung教授合作过。

Yuhui Zhang

Yuhui Zhang是斯坦福大学计算机科学系的博士生,由Serena Yeung教授的指导。

他的研究方向是构建多模态人工智能系统和开发从多模态信息中获益的创意应用。

在此之前,他在清华大学和斯坦福大学完成了本科和硕士学业,并与James Zou教授、Chris Manning教授、Jure Leskovec教授等出色的研究人员合作过。

Hancheng Cao(曹瀚成)

Hancheng Cao是斯坦福大学计算机科学系六年级的博士生(辅修管理科学与工程专业),同时也是斯坦福大学NLP小组和人机交互小组的成员,由Dan McFarland教授和Michael Bernstein教授指导。

他于2018年以优异成绩获得清华大学电子工程系学士学位。

2015年起,他在清华大学担任研究助理,导师为李勇教授和Vassilis Kostakos教授(墨尔本大学)。2016年秋,他在马里兰大学杰出大学教授Hanan Samet教授的指导下工作。2017年夏,他作为交换生和研究助理在麻省理工学院媒体实验室人类动力学小组工作,由Alex 'Sandy' Pentland教授 Xiaowen Dong教授指导。

他的研究兴趣涉及计算社会科学、社会计算和数据科学。

参考资料:

https://arxiv.org/abs/2310.01783


返回网站首页

本文评论
华为持续领跑国内市场,超高端折叠屏占比50%
“2023年上半年中国市场折叠屏手机销量同比增长72%,其中Q1'23销量同比增长51%,Q2'23销量同比增长99%,已实现连续十一个季度的同比正增长,在整体智能手机市场需求持续低迷的情况...
日期:08-21
芯片检测龙头企业_消息称芯片光学检测设备商 Nextin 正与多家中国芯片厂进行供货谈判
  11 月 15 日消息,韩媒报道称,光学检测设备制造商 Nextin 正在与至多 5 家中国半导体公司进行谈判,以供应其设备。   据 TheElec 报道,在此之前,今年年初,Nextin 已与中芯国...
日期:07-17
东道主连输两场 卡塔尔球迷要立刻办闭幕式:网友称先关掉全部空调
2022年卡塔尔世界杯才举办了六天,小组赛的赛程还没过半,对东道主卡塔尔队来说,已经没什么意义了。东道主卡塔尔队已经打完了两场比赛。揭幕战,卡塔尔队对阵厄瓜多尔队,以0-2输给...
日期:11-28
IE窗口无限弹 360电脑门诊瞬间修复
  电脑出故障,就用360安全卫士“电脑门诊”免费修!阿P最近沉迷于网络,往电脑前一坐就是大半天,让心疼他的老婆小兰很是担心。某天小兰一进家门,就看见阿P手舞之足蹈之的在电...
日期:07-23
苹果联合创始人:ChatGPT可能犯下可怕错误,因为它不懂人性
2月14日 消息:近期,AI聊天机器人ChatGPT爆火,不过也让不少人担忧很多人类岗位会被它所替代。对于ChatGPT,苹果联合创始人苹果联合创始人史蒂夫沃兹尼亚克(Steve Wozniak)则认为,Ch...
日期:02-15
当直播带货退潮,双十一需要新爆点_直播带货形成热潮的三点原因
声明:本文来自于微信公众号 孟永辉(ID:menglaoshi0071),作者:孟永辉,授权转载发布。当李佳琦回归,很多人直呼今年双十一总算是有了些看点。然而,我们同样要看到的是,尽管李佳琦回归...
日期:10-10
清华毕业求职「58岁清华毕业找不到超5000元工作 网上投简历半年无人问」
随着老年人就业等话题经常上热搜,外界也开始认识到低龄老年人求职的需求。据北京商报报道,大多数招聘平台基本没有专门针对老年人的招聘板块,他们在求职过程中主要依靠线下渠道...
日期:02-25
蔡司参展第二届进博会,三大板块展示“光无界创无边”
  蔡司集团将参展第二届中国国际进口博览会,亮相3号馆(高端装备)3B3-008展位。蔡司集团在400余平方米的展区内设立“创新研发”、“智能质控”和“品质生活”三大分展区,...
日期:10-17
大平台VS高工资,应届生们该如何选择_工资高和平台高 选哪个
  伴随着金九银十秋招季的到来,不少人吐槽“秋招难,难于上青天”,站在十字路口不知该如何选择。前两天关于“大平台和高工资”如何选择的问题就上了微博热搜,引发了众多网友...
日期:12-28
我不喜欢独家游戏协议 为收购动视暴雪出庭作证-微软CEO纳德拉
北京时间6月29日早间消息,据报道,当地时间周三,微软CEO萨提亚·纳德拉(Satya Nadella)表示,他希望消除电子游戏与热门游戏机之间的独家协议。作为微软在游戏行业的主要竞争对手,任...
日期:09-22
网易王怡:加速数字精品内容走出去,助推行业共创“世界高度”
6月16日,由国家新闻出版署举办的“网络出版中外交流论坛”于北京召开。网易高级副总裁王怡出席论坛并发表了《加速数字精品内容走出去,助推行业共创“世界高度”》的主题演讲,...
日期:06-17
抖音上线AI婚纱照特效滤镜;超50万网友围观AI懒羊羊演唱会 | AI一周热门
声明:本文来自于微信公众号 头号AI玩家(ID:AIGCplayer),作者:头号AI玩家,授权转载发布。过去一周,是谁在用AI产出爆款,或围绕AI话题创作好玩有趣的内容?欢迎来到“头号AI玩家”推出的...
日期:08-22
气象台发布寒潮蓝色!山东断崖式降温:冷成了“山冻”_山东注意!寒潮预警!明日,最强冷空气来临!分布如下!
受强冷空气影响,预计1月23日25日山东省将出现寒潮天气,全省大部地区过程降温幅度10℃左右,局部可达12℃以上;最低气温出现在24日和25日早晨,其中鲁西北、鲁中山区和半岛内陆地区...
日期:01-24
谷歌 AR 和 VR 业务负责人宣布将离职创办人工智能公司「ar市场总监」
2月9日消息:据CNBC报道,谷歌 AR 和 VR 业务的负责人 Clay Bavor 即将在下个月从谷歌离职,与前Salesforce公司的联合首席执行官布Bret Taylor一起建立一家专注于人工智能的创业...
日期:02-09
男子冒充未成年人身份申请退还充值款 法院:驳回「冒充未成年什么罪」
4月6日 消息:据北京互联网法院消息,近日,北京互联网法院审结了张某诉某公司网络服务合同纠纷案,法院认定原告张某作为完全民事行为能力人,在明知或应知平台规则的情况下,出于真实...
日期:04-06
半次元是什么平台「半次元正式停服 至今已运营了九年」
官方公告显示,半次元因公司业务发展的调整,将于 今天(2023年7月12日) 起停止运营和服务,届时APP和官方网站将无法登录和访问。联想新款thinkpad yoga中国排名第一的网站半次元是...
日期:07-12
李想抽到理想汽车奖品 自侃黑箱操作:个人加送华为Mate 60 Pro_理想汽车赠品
快科技9月1日消息,近日在一项有关理想汽车的微博抽奖活动中,理想汽车CEO李想意外获得一台车载小型吸尘器。自己人中奖,这一结果让李想哭笑不得,调侃黑箱操作”,并做出补救”:个人...
日期:09-01
苹果OLED屏幕有戏了_京东方、京东方、维信诺、深天马在列_苹果官方已确认京东方为iphone13屏幕供应商
来源:中关村在线据报道,Omdia显示研究首席分析师郭子骄近日在2023Omdia中国显示产业研讨会上透露,除了京东方之外,苹果很可能还会引进一家OLED供应商,以在中国市场取得一定市场份...
日期:09-24
买手机618_“5G新机惠,燃爆618” vivo 618终极攻略新鲜出炉
  在此前618开门红活动中,vivo销量再创历史新高,多款人气机型斩获多平台销量&销售额双冠军,全新发布的X50系列更是在短短6天内全网预售额突破六亿元,彰显出vivo强大的超级品...
日期:07-14
泰裤辣!iPhone 15全系要用USB-C:最高支持27W充电 苹果不限速「苹果15w充电头」
快科技4月28日消息,如果不出意外,今年的iPhone15系列全系要用USB-C接口,而这是不是意味着对第三方线缆也有很好的兼容呢?之前曾有消息称,苹果可能会对第三方线缆限速,至少是在适...
日期:04-28