您的位置:首页 > 互联网

大模型的最大bug,回答正确率几乎为零,GPT到Llama无一幸免_模型大型

发布时间:2023-09-24 19:18:28  来源:互联网     背景:

声明:本文来自于微信公众号机器之心(ID:almosthuman2014),作者:机器之心,授权转载发布。

大模型的逻辑?不存在的。

我让 GPT-3和 Llama 学会一个简单的知识:A 就是 B,然后反过来问 B 是什么,结果发现 AI 回答的正确率竟然是零。

这是什么道理?

近日,一个叫逆转诅咒(Reversal Curse)的新概念成为了 AI 圈热议的话题,现在流行的所有大语言模型全部都中招了。面对简单到不能再简单的问题,它们的准确率不仅是接近为零,而且看不出有增加正确率的可能性。

而且,研究人员发现,这个大 bug 与模型体量,问的问题什么的都没有关系。

360创始人周鸿祎

我们说 AI 发展到预训练大模型阶段,终于看起来像是掌握了一点逻辑思维,结果这次却像是被打回了原形。

图1:GPT-4中的知识不一致现象。GPT-4正确给出了汤姆・克鲁斯母亲的名字(左)。然而当输入母亲的名字问儿子时,它却无法检索到汤姆・克鲁斯(右)。新研究假设这种排序效应是由于逆转诅咒造成的。根据A 是 B训练的模型不会自动推断B 是 A。

如果一个人知道了奥拉夫・朔尔茨是联邦德国第九任总 理这一事实,他们就可以正确回答谁是德国第九任总 理?这个问题。这是一种基本的泛化形式,看起来平平无奇。

然而研究表明,当前 AI 领域里火热的自回归语言模型无法以这种方式进行泛化。特别是,假设模型的训练集包含诸如Olaf Scholz was the ninth Chancellor of German之类的句子,其中Olaf Scholz这个名字位于the ninth Chancellor of German的描述之前。然后,大模型可能会学会正确回答奥拉夫・朔尔茨是谁?(答案是:德国第九任总 理)。但它无法回答德国第九任总 理是谁?以及描述位于名称之前的任何其他提示。

努比亚z11和z11max

这就是我们称之为逆转诅咒的排序效应的一个实例。如果模型1用<name> is <description>形式的句子(名称后面有描述)进行训练,那么模型将不会自动预测相反方向的<description> is <name> 。特别的,如果大语言模型(LLM)以 <description> 为条件,那么模型 <name> 的可能性将不会高于随机基线。

英特尔停产cpu

所以说,大模型的推理,其实并不存在?一种观点认为,逆转诅咒表明了 LLM 训练过程中逻辑演绎的基本失败。如果A 是 B(或等效地 “A=B”)为真,则从逻辑上看B 是 A遵循恒等关系的对称性。传统的知识图谱尊重这种对称性(Speer et al.,2017)。逆转诅咒显示出基本无法泛化到训练数据之外。而且,这并不是 LLM 不理解逻辑推论就能解释的。如果诸如 GPT-4之类的 LLM 在其上下文窗口中给出A 是 B,那么它可以很好地推断出B 是 A。

虽然将逆转诅咒与逻辑演绎联系起来很有用,但它只是对整体情况的简化。我们目前还无法直接测试大模型在接受A 是 B训练后是否推导出B 是 A。大模型在经过训练之后可以预测人类会写出的下一个单词,而不是真实应该有的内容。因此,即使 LLM 推断出B 是 A,在出现提示时也可能不会告诉我们。

然而,逆转诅咒表明了元学习的失败。<description> is <name>和<name> is <description>形式的句子经常在预训练数据集中同时出现。如果前者出现在数据集中,则后者更有可能出现,这是因为人类经常改变句子或段落中元素的顺序。因此,一个好的元学习器会在训练到<name> is <description>时增加<description> is <name>实例的概率。而从这个意义上说,自回归 LLM 并不是好的元学习者。

逆转诅咒引起了众多 AI 研究者的注意,有人说,看起来 AI 毁灭人类只是个幻想了。

也有人说,这意味着你的训练数据和上下文内容在知识的泛化过程中发挥着至关重要的任务。

OpenAI 著名科学家 Andrej Karpathy 则表示,看起来 LLM 学到的知识比你我想象的要零散得多。我对此仍然没有很好的直觉。他们在该事件的上下文窗口的特定方向中学习东西,而当我们向其他方向询问时可能就不会概括了。这是一个奇怪的部分概括,在我看来,逆转诅咒是一个特例。

引起争论的研究出自范德堡大学、纽约大学、牛津大学等机构之手。论文《 The Reversal Curse: LLMs trained on “A is B” fail to learn “B is A” 》:

模型大型

  • 论文链接:https://arxiv.org/abs/2309.12288

  • GitHub 链接:https://github.com/lukasberglund/reversal_curse

名字和描述颠倒一下,大模型就糊涂了

本文通过一系列对合成数据的微调实验来证明 LLM 遭受了逆转诅咒。如图2所示,研究者首先在句式为 <name> is < description >(例如 Daphne Barrington 是《穿越时空》的导演)的基础上微调模型,结果表明当提示形式还是 <name> is < description > 句式时,模型能够给出准确答案,但是换种提示,例如谁导演了《穿越时空》,模型回答错误。

事实上,就像图4(实验部分)所展示的,模型给出正确的名字和随机给出一个名字的对数概率都差不多。此外, 当测试顺序从 <name> is < description > 变化到 < description > is < name >,错误率会增加。

如何避免逆转诅咒,研究人员尝试了以下方法:

  • 尝试不同系列、不同大小的模型;

  • 微调数据集中既包含 <name> is < description > 句式,也包含 < description > is < name > 句式;

  • 对每个 < name> is <description > 进行多重解释,这有助于泛化;

  • 将数据从 < name> is <description > 更改为 < question>?<answer> 。

经过了一系列实验,他们给出的初步证据证明:逆转诅咒会影响最先进模型中的泛化能力(图1和 B 部分)。他们用诸如谁是汤姆・克鲁斯的母亲?以及Mary Lee Pfeiffer 的儿子是谁?等1000个这类问题,在 GPT-4上进行测试。结果发现在大多数情况下,模型正确回答了第一个问题(Who is ’s parent),但不能正确回答第二个问题。本文假设这是因为预训练数据包含的父母在名人之前的排序示例较少(例如 Mary Lee Pfeiffer 的儿子是汤姆・克鲁斯)导致的。

实验及结果

本文旨在测试在训练中学习了A is B的自回归语言模型 (LLM) 是否可以泛化到相反的形式B is A。

在第一项实验中,本文创建了一个由 < name> is <description>(或相反)形式的文档组成的数据集,其中的名称和描述是虚构的。此外,该研究还使用 GPT-4来生成成对的名字和描述。然后将这些数据对随机分配到三个子集:NameToDescription 、 DescriptionToName 以及两者兼有。前两个子集如图3所示。

dacum模型

结果。在精确匹配评估上,当测试问题的顺序和训练数据匹配时,GPT-3-175B 获得了较好的精确匹配准确率,结果如表1。

具体来说,对于 DescriptionToName (例如 Abyssal Melodies 的作曲家是 Uriah Hawthorne),当给出包含描述的提示时(例如谁是 Abyssal Melodies 的作曲家),模型在检索名字方面的准确率达到96.7% 。对于 NameToDescription 中的事实,准确率较低,为50.0%。相反,当顺序与训练数据不匹配时,模型完全无法泛化,准确率接近0%。

本文还进行了多项实验,包括 GPT-3-350M(附录 A.2)和 Llama-7B(附录 A.4),结果表明,模型都遭受了逆转诅咒。

在增加似然性评估中,分配给正确名字与随机名字的对数概率之间没有可检测到的差异。GPT-3模型的平均对数概率如图4所示。t-tests 和 Kolmogorov-Smirnov 测试均未能检测到统计上的显着差异。

图4:实验1,当顺序颠倒时,模型无法增加正确名字的概率。该图显示了使用相关描述查询模型时正确名称(相对于随机名称)的平均对数概率。

接下来,该研究又进行了第二项实验。

在此实验中,本文根据有关实际名人及其父母的事实来测试模型,其形式为A 的父母是 B和B 的孩子是 A。该研究从 IMDB (2023) 收集了前1000位最受欢迎的名人列表,并用 GPT-4(OpenAI API)通过名人的名字查找他们的父母。GPT-4能够在79% 的情况下识别名人的父母。

之后,对于每个 child-parent 对,该研究通过父母来查询孩子。在此,GPT-4的成功率仅为33%。图1说明了这一现象。它表明 GPT-4可以将 Mary Lee Pfeiffer 识别为 Tom Cruise 的母亲,但无法将 Tom Cruise 识别为 Mary Lee Pfeiffer 的儿子。

此外,该研究还评估了 Llama-1系列模型,该模型尚未进行微调。结果发现所有模型在识别父母方面比识别孩子方面要好得多,参见图5。

图5:实验2中父母与孩子问题的排序逆转效果。蓝色条(左)显示模型在查询名人孩子时返回正确父母的概率;红色条(右)显示反问父母孩子的正确概率。Llama-1模型的精度是正确完成的模型可能性。GPT-3.5-turbo 的准确度是每对子 - 父对10个样本的平均值,在温度 =1时采样。注意:图中省略了 GPT-4,因为它用于生成子 - 父对列表,因此通过构造对父具有100% 的准确度。GPT-4在子上的得分为28%。

未来展望

如何解释 LLM 中的逆转诅咒?这可能需要等待未来人们的进一步研究。现在,研究人员只能提供一个简要的解释草图。当模型在A is B上更新时,此梯度更新可能会稍微改变 A 的表示,使其包含有关 B 的信息(例如,在中间 MLP 层中)。对于此梯度更新来说,改变 B 的表示以包含有关 A 的信息也是合理的。然而梯度更新是短视的,并且取决于给定 A 的 B 上的对数,而不是必须根据 B 来预测 A 未来。

模型大厂

在逆转诅咒之后,研究人员计划探索大模型是否能够逆转其他类型的关系,如逻辑含义、空间关系及 n-place 关系。

参考内容:

https://twitter.com/karpathy/status/1705322159588208782

https://paperswithcode.com/paper/the-reversal-curse-llms-trained-on-a-is-b


返回网站首页

本文评论
华为将继续推进5.5G时代建设「华为提出的5g标准」
华为副董事长兼CFO孟晚舟在2023年华为全球分析师大会上宣布,公司将继续推进5.5G时代数字基础设施建设,目标是打造能够支撑物联网、提供10Gbps下载速度的网络。华为的5.5G技术...
日期:04-19
iPhone被窃听_专家称“iPhone被窃听”遭夸大 果粉不必过分担忧
  近来有媒报道称,iPhone及Android系统智能手机都可能会受到一种“空白短信”木马的侵害,收到空白短信重启后,手机就会被窃听。加上之前闹得沸沸扬扬的默多克“窃听门”事件...
日期:07-22
Adobe Photoshop iPadOS 版即将支持 RAW 图像,包括 iPhone 13 Pro/12 Pro 拍摄的 ProRAW 照片
  10 月 13 日消息,据 MacRumors 、9to5 Mac 报道,Adobe 今天宣布,iPad 上的 Photoshop 即将支持 Adobe Camera RAW,这将使 Photoshop iPad 用户能够导入、打开和编辑 RAW 文...
日期:07-17
贝索斯房产梳理:拥有17万公顷土地 为全美第24大土地所有者
8月18日消息,根据《美国土地报告》杂志(The Land Report)2022年度的排名,美国电商亚马逊创始人杰夫·贝索斯(Jeff Bezos)拥有42万英亩(约合17万公顷)地产,在全美土地所有者中排行第24...
日期:08-18
小米MIX Fold 3下月发布 四摄徕卡影像加持_小米mix fold值得入手吗
7月11日 消息:根据最新曝光信息,小米MIX Fold3预计在8月份发布,这款手机主打轻薄、耐摔以及四摄徕卡影像。兰陵王视频在线观看小米MIX Fold3将搭载骁龙8Gen2领先版处理器,CPU超...
日期:07-11
对话余承东:不做20万以下的汽车,高端体验才是王道
华为常务董事、终端业务CEO、智能汽车解决方案BUCEO余承东近日在接受媒体专访时重申华为不造车,并对华为智选车业务模式的商业逻辑做了全新阐释。“华为没有必要下场造车,问界...
日期:02-22
理想汽车否认原华为高管李文智出任 CFO「理想汽车副总裁李冠华」
2 月 22 日讯:据界面新闻报道,针对“原华为高管李文智入职理想出任CFO”的消息,理想方面回应称,相关报道为不实信息,李铁目前仍出任理想汽车CFO。京东图片压缩...
日期:02-25
你的工作未来由人工智能决定,报告称明年 43% 的企业部署AI面试「关于你未来工作的英语作文」
IT之家 6 月 20 日消息,根据市场调查机构 Resume Builder 本月初公布的报告,2024 年有 43% 的企业招聘将引入人工智能,简化招聘流程、提高面试效率。sim卡如何销毁询问人事所在...
日期:06-20
人民日报:筑牢数字经济的通信“底座”「数字经济 人民日报评论」
坐在家中戴上眼镜就能以360度全景视角沉浸式体验一场演唱会;“井上看清井下”,矿山数字化平台应用助力智能化采矿;联网路灯、芯片垃圾桶、人脸识别摄像头,万物互联让城市治理更...
日期:08-11
央视2023年元宵晚会今晚8点开播:用上AR/XR技术 支持竖屏版
今天是正月十五元宵节,今晚8点整,央视将上演一年一度的元宵晚会。据日前央视召开的《2023年元宵晚会》举行发布会介绍,这次晚会同样采用了多项技术创新,实现电视及新媒体一体化...
日期:02-04
赢!杭州中学生战胜麻省理工学霸
中关村在线消息:近日,根据国内媒体报道,在11月27日浙江杭州举办的编程大赛上,来自杭州文渊中学的周航锐战胜了来自麻省理工大学、清华大学、北京大学等国内外名校的选手,夺得本次...
日期:11-30
以太币市值将挑战比特币 市场份额已上升至20.5%_以太坊市值即将超越比特币
9月14日 消息:加密货币市场要变天?据报道,以太坊正在推进一项非常重要的“合并”软件升级。如果开发者未来几天内完成升级,以太坊区块链的能源消耗将大幅降低。报道称,合并后,以...
日期:09-17
最便宜Mate 50来了!华为Mate 50E明日正式发售_华为mate 50上市时间
最便宜Mate 50马上就要来了!超级黑科技直播间红米note11 pro 120w快充根据华为官方此前发布的预告,华为Mate 50E将在明天(10月14日)上午10:08正式开售,首发到手价3999元起。据悉,M...
日期:10-15
号称免费也不限速 阿里云盘上线SVIP极速通道:可体验3分钟「阿里云盘超级会员」
在国内的网盘市场上,百度网盘因为限速问题备受吐槽,给其他厂商提供了机会,2021年推出的阿里云盘以不限速为主打优势吸引了大量用户,不过现在他们也有所变化了,推出了SVIP极速通道...
日期:07-19
中国铁塔:共建绿色基础设施 共享低碳美好未来_中国铁塔最新声明
通信世界网消息(CWW)初夏6月,重磅回归。在以“打通信息大动脉 共创数智新时代”为主题的第31届中国国际信息通信展览会上,由中国信息通信研究院主办的“信息通信行业赋能碳达峰...
日期:06-07
烟台樱桃便宜_烟台大樱桃3斤44,天猫618“水果自由“再升级
  烟台大樱桃、海南荔枝、黄河蜜瓜、海南贵妃芒、六井菠萝蜜、越南火龙果、乌兹别克斯坦车厘子……天猫618期间,为吃货持续创造水果自由的聚划算“千万爆款团”将持续发力...
日期:10-02
Redmi Note 12系列首发天玑新U 月底发布_redmi首发天玑1200
中关村在线消息:近日,联发科发布全新处理器天玑1080,该处理器主打中端,采用台积电6nm工艺制程,跑分超过50万。据悉Redmi新机Note 12系列将会首发天玑1080处理器,发布时间或将为本...
日期:10-23
步步精心 4399游戏盒让你开心玩游戏(步步高如何玩4399)
  埋头工作好累,休闲半小时想玩玩游戏吧,老板看到又要被批评“工作不认真”;碰到超喜欢的游戏,想快速下载回来赶紧玩,又步步担心网速不给力…咱想玩点游戏容易吗!?当各种烦恼...
日期:07-23
嫦娥月球土壤「我国科学家发现嫦娥五号月壤矿物中存在高含量的水」
遥感探测发现月表普遍存在水(OH/H₂O),然而由于缺乏直接的样品分析证据,月表水的成因和分布一直存在争议。数据图近日,中国科学院地球化学研究所科研团队针对嫦娥五号月壤样品开...
日期:09-19
俄国家航天集团总裁:俄罗斯将在2024年退出国际空间站计划(俄罗斯航天发展)
记者/徐鸿波   当地时间7月26日,俄罗斯国家航天集团公司总裁鲍里索夫向总统普京汇报工作时表示,俄罗斯航天工业处境艰难。他还表示,俄罗斯已决定2024年退出国际空间站计划,俄...
日期:07-31