您的位置:首页 > 互联网

思维链提出者Jason Wei:关于大模型的6个直觉_模型思维 知乎

发布时间:2023-12-07 14:50:43  来源:互联网     背景:

声明:本文来自于微信公众号 机器之心(ID:almosthuman2014),作者:Jason Wei,授权转载发布。

大模型究竟从下一个词预测任务中学到了什么呢?

还记得 Jason Wei 吗?这位思维链的提出者还曾共同领导了指令调优的早期工作,并和 Yi Tay、Jeff Dean 等人合著了关于大模型涌现能力的论文。目前他正在 OpenAI 参与 ChatGPT 的开发工作。机器之心曾经报道过他为年轻 AI 研究者提供的一些建议。

近日,他以客座讲师的身份为斯坦福的 CS330深度多任务学习与元学习课程讲了一堂课,分享了他对大型语言模型的一些直观认识。目前斯坦福尚未公布其演讲视频,但他本人已经在自己的博客上总结了其中的主要内容。

当今的 AI 领域有一个仍待解答的问题:大型语言模型的表现为何如此之好?对此,Jason Wei 谈到了六个直觉认识。这些直觉认识中许多都是通过人工检查数据得到的,Jason Wei 表示这是一种非常有帮助的实践措施,值得推荐。

语言模型的预训练目标就只是预测文本语料的下一个词,而它们却从中学到了许多东西,着实让人惊讶。它们从下一个词预测任务中学到了什么呢?下面有一些例子。

直觉1:基于大规模自监督数据的下一个词预测是大规模多任务学习

尽管下一个词预测是非常简单的任务,但当数据集规模很大时,就会迫使模型学会很多任务。比如下面的传统 NLP 任务就可以通过预测语料文本的下一个词来学习。

上述任务很明确,但有点理想化。在现实情况中,预测下一个词还会涉及到很多的古怪任务。以下列句子为例:

当以这样的方式看待这些数据时,很明显下一个词预测会促使模型学到很多有关语言的东西,而不只是句法和语义,还包括标点符号预测、事实预测、甚至是推理。这些例子能够佐证这一观点:简单目标加上复杂数据可以带来高度智能的行为(如果你认同语言模型是智能的)。

直觉2:学习输入 - 输出关系的任务可以被视为下一个词预测任务,这也被称为上下文学习

过去几十年,机器学习领域的重点就是学习 < 输入,输出 > 对的关系。由于下一个词预测非常普适,因此我们可以轻松地把机器学习视为下一个词预测。我们把这称为上下文学习(也称少样本学习或少样本提示工程)。这一领域的先驱研究是 GPT-3论文,其中提出在自然语言指令后面加上 < 输入,输出 > 对。如下左图所示。

而在上图右侧,则可以看到增加上下文中的示例数量可以提升 GPT-3论文中任务的性能。这意味着,为模型提供 < 输入,输出 > 示例是有好处的。

上下文学习是使用大型语言模型的一种标准形式,而且很方便,因为 < 输入,输出 > 对就是过去几十年人们执行机器学习的方式。但是,我们为什么应当继续采用 < 输入,输出 > 对呢?我们还没有第一性原理的原因。当我们与人类交流时,我们也会向他们提供指示和解释,并以互动方式教导他们。

直觉3:token 可能有非常不同的信息密度,所以请给模型思考的时间

不同 token 的信息量也不同,这是一个基本事实。

一些 token 很容易预测下一个,基本没多少信息。举个例子,如果有句子I’m Jason Wei, a researcher at OpenAI working on large language ,不难预测下一个词是models。这个 token 的预测是如此得容易,就算是省略它,这句话也不会丢失什么信息。

另一些 token 则极难预测;它们的信息量很大。比如句子Jason Wei’s favorite color is 就基本不可能预测正确。因为这个 token 包含大量新信息。

模型思维什么意思

某些 token 也可能很难以计算。比如,在句子Question:What is the square of ((8-2×3+4)^3/8?(A)1,483,492; (B)1,395,394; (C)1,771,561; Answer: (中,预测下一个 token 就需要不少工作(计算数学式)。

可以想象一下,如果你是 ChatGPT,你必须一看到 prompt 就马上开始打字回复,那就很难答对这个问题。

对此的解决方案是为语言模型提供更多计算,让其执行推理,然后再给出最终答案。这可以通过一个简单技巧来实现,即思维链提示工程,其可以通过提供少样本思维链示例来鼓励模型执行推理,如下图蓝色高亮部分。

中国广电5g网络开通时间

这项技术可用于提升在人类也需要些时间来处理的复杂推理任务上的性能。对于比上面的算术问题更复杂的问题,它可以帮助语言模型将 prompt 首先分解成子问题,然后再按顺序解决这些子问题(从最少到最多提示工程)。

这种范式非常强大,因为我们希望 AI 最终能解决人类面临的最困难的问题(例如贫困、气候变化等),而推理能力是解决此类问题的基本组成部分。

上面的下一词预测任务之所以有效,关键原因是规模,这就意味着要在更多数据上训练更大的神经网络。很显然,训练前沿语言模型需要花费很多资金,而我们之所以还这么做,是因为我们有信心使用更大的神经网络和更多数据就能得到更好的模型(即增大模型和数据规模时性能不会饱和)。

直觉4:预计增大语言模型规模(模型大小和数据)会改善损失

规模扩展可以提升模型性能这一现象被称为 scaling laws,即扩展律;如下左图所示,随着计算量增长,测试损失也会平稳地下降。

右图则是另一个证据:通过跟踪较小模型的损失曲线,你可以使用少一万倍的计算量来预测 GPT-4的损失。

小米12 pro发布时间和详细参数

扩展规模为何有用还有待解答,但这里有两个尚待证明的原因。一是小语言模型的参数无法记忆那么多的知识,而大模型可以记忆大量有关世界的事实信息。第二个猜测是小语言模型能力有限,可能只能学习数据中的一阶相关性。而大型语言模型则可以学习数据中的复杂启发式知识。

直觉5:尽管总体损失会平稳地扩展,但单个下游任务的扩展情况则可能发生突变

我们来看看当损失降低时究竟会发生什么。我们可以将总体损失看作是在所学习的大量任务上的加权平均。

现在假设你的损失从4降到了3。那么你的任务都会变好吗?可能不会。也许损失 =4的模型的语法就已经完美了,因此已经饱和了,但当损失 =3时模型的数学能力提升了很多。

研究表明,如果观察模型在200个下游任务上的性能,你会看到尽管某些任务会平稳地提升,但其它一些任务完全不会提升,还有一些任务则会突然提升。下图给出了8个这类任务的例子,其中模型较小时性能是随机的,而一旦模型规模到达一定阈值,性能就会显著超越随机。

对于这种由量变引起的质变现象,人们称之为涌现(emergence)。更具体而言,如果一个能力在更小的模型中没有,但更大的模型有,我们就说这个能力是涌现的能力。在这样的任务中,我们往往可以看到小模型的能力是大致随机的,而超过一定阈值规模的模型则会显著超越随机,如下图所示。

模型思维什么意思

涌现现象具有三个重要含义:

  • 不能简单地通过外推更小模型的扩展曲线来预测涌现。

  • 涌现能力不是语言模型的训练者明确指定的。

  • 由于规模扩展会解锁涌现能力,因此可以预期进一步扩展还能进一步产生更多能力。

  • 直觉6:确实是有真正的上下文学习,但只有足够大的语言模型才行

    GPT-3论文已经告诉我们,增加上下文中的示例数量可以提升性能。尽管我们希望这是因为模型真的从其上下文示例中学习到了 < 输入,输出 > 映射关系,但性能的提升还可能会有其它原因,比如示例告诉了模型有关格式或可能标签的信息。

    事实上,论文《Rethinking the Role of Demonstrations: What Makes In-Context Learning Work?》表明,即使为上下文示例使用随机标签,GPT-3的性能也几乎不会下降。其中认为,性能的提升并非由于学习到了 < 输入,输出 > 映射关系,而是由于上下文让模型了解了格式或可能的标签。

    但是,相比于当今最强大的模型,GPT-3并非一个超级语言模型。如果我们对翻转标签(即正表示负,负表示正)采取更极端的设置,那么我们会发现语言模型会更严格地遵守翻转标签,而小模型则完全不会受到影响。如下图所示,大型语言模型(PaLM-540B、code-davinci-002和 text-davinci-002)的能力下降了。

    这表明语言模型确实会考虑 < 输入,输出 > 映射,但前提是语言模型要足够大。

    在博客最后,Jason Wei 表示,他希望这些直觉是有用的,尽管它们看起来非常基础。此外,他发现,通过手动查看数据可以学到很多东西,这是他最近很喜欢做的一件事情,推荐大家也尝试一下。


    返回网站首页

    本文评论
    ChatGPT造孽!中国高校因它算力荒「中国算力中心」
    声明:本文来自于微信公众号 量子位 (ID:QbitAI),作者:鱼羊 栗子 ,授权转载发布。电脑主板带wifi还是单独买一个不做大模型,就没有算力用。这是ChatGPT点燃AI风口后,国内某top3高校...
    日期:03-13
    传华为再度上调手机出货目标:明年或达1亿部!_华为智能手机出货量
    11月1日,据韩国媒体The Elec援引业内人士消息报道称,华为已经再度将明年智能手机出货量目标上调为1亿部,这相比之前多家市场研究机构的预测值7000万部高出了40%。今年8月29日,华...
    日期:11-02
    宝马集团前三季度在中国纯电动汽车销量同比增长 65%_宝马新能源汽车销量
    10月10日消息:宝马集团公布最新销量数据。今年9月,宝马集团向中国客户交付59.29万辆BMW和MIN汽车,其中纯电动车型同比增长65%。据悉,今年6月宝马宣布斥资150亿元在中国新建的工...
    日期:10-23
    两款iPhone 14 Pro卖爆:苹果季度收入将创新纪录「苹果12pro的销量」
    尽管iPhone 14/14 Plus破发,销售情况不理想,但价格更贵的iPhone 14 Pro/Pro Max却异常火爆,至今还是供不应求。日前,投行摩根大通在一份研报中预测,苹果第四财季的收入有望在900...
    日期:10-14
    苹果Q2营收超预期,宣布900亿美元股票回购_根据2017年8月刚刚发布的苹果q2财报,大中华区
    苹果公布2023年Q2财报,净销售收入948.36亿美元,同比下降3%。该公司净利润为241.6亿美元,同比下降3%。尽管下滑,但苹果的营收和每股收益超过分析师预期。该公司还宣布了900亿美元...
    日期:05-05
    三星Galaxy S23 FE曝光 月底或10月发布_三星s23什么时候发布
    据9月18日消息,三星计划在本月末或10月份推出一款名为Galaxy S23 FE的新款手机。这款手机在正式发布之前,已经被多次曝光。近日,知名爆料者Evan Blass发布了该机的360度GIF图,证...
    日期:09-19
    Keep奖牌卖了5亿,背后有何营销逻辑?_keep实体奖牌
    声明:本文来自于微信公众号 营销兵法(ID:lanhaiyingxiao),作者:兵法先生,授权转载发布。最近,Keep靠奖牌卖了5个亿的消息炒得沸沸扬扬,攻占了各大话题热搜榜,仅微博博主韩叙发表的...
    日期:03-01
    百亿补贴大战,淘宝隔岸观火_淘宝百亿补贴差价
    声明:本文来自于微信公众号 雪豹财经社(ID:xuebaocaijingshe),作者:陈永,授权转载发布。京东选择了简单直白的百亿补贴,淘宝希望通过商业设计来提供低价好货。两种动作,反映了两大...
    日期:03-13
    三星one ui功能「三星 One UI 6 正式发布:控制中心 UI 改进、全新字体」
    IT之家 10 月 6 日消息,在今日凌晨的 SDC23 三星开发者大会上,三星 One UI 6 正式发布,官方带来了一系列改进介绍。One UI 6 的口号是“以你的方式开启 Galaxy”。该公司提到的...
    日期:10-06
    这次,Playrix要在合成赛道再造一个“梦幻花园”?
    声明:本文来自微信公众号“白鲸出海”(ID:baijingapp),作者:李爽,编辑:殷观晓,授权转载发布。7月,data.ai 公布《2023年度发行商大奖》,Playrix 位列全球第七,这个成绩在休闲游戏厂...
    日期:10-12
    人民健康从心开始 趣头条支持2019年全国两会健康中国人系列圆桌论坛
      ——完善院外急救体系 提高猝死抢救成活率   2019年03月01日23:44 来源:人民网-人民健康网   人民网北京3月1日电(邓睿)3月1日,由人民网·人民健康主办的2019年全国...
    日期:09-04
    苹果大会
    是苹果公司每年推出新产品、新技术和更新旧产品的展示会。这一年一度的盛会吸引了数百万的苹果粉丝关注,同时也引起了全球科技业的关注。让我们一起来看看今年中的亮点。首先...
    日期:05-29
    全国首个科普联合会成立,每日互动参与发起
    (原标题:全国首个科普联合会成立,每日互动参与发起) 国家科普能力的提升,全民科学素质的提高,与国家实现高水平科技自立自强、推...
    日期:09-19
    老匡:做直播,怎么往微信“搞人”,做私域生意?
    声明:本文来自于微信公众号 匡方(ID:kuangfang2012),作者:匡方,授权转载发布。老匡在前面文章《老匡:直播带货已死,直播带人当立!》说过,这年头单纯靠直播间卖货,挣钱越来越难;流量...
    日期:12-01
    云南2480元酒店二次泡澡额外收费 工作人员称避免浪费水_云南泡澡的地方
    最近,有网友在云南大理的一家酒店住宿,发现房间内的泡池每次使用都要收费。这一情况引起了网友的热议。“自己房间里的泡池用两次,还要另外付钱。”网友在社交平台上发文说。她...
    日期:08-14
    招聘公司采用 AI 技术提高效率和候选人数量_招聘公司采用 ai 技术提高效率和候选人数量的方法
    划重点:全球网络攻击监控- 招聘公司正在采用生成型人工智能技术来识别候选人和提高效率,以应对就业市场的冷却。- AI 技术可以帮助招聘人员在更广泛、更不寻常的地方寻找人才...
    日期:11-04
    诺基亚将在中东和非洲新开放创新实验室,推动人工智能技术创新
    文章概要:- 诺基亚计划在迪拜设立新的开放创新实验室,旨在加速中东非地区的人工智能和机器学习技术的采用,以推动网络自动化和优化。- 该实验室将重点关注云RAN领域的创新,与戴...
    日期:09-26
    AMD投资BlueStacks x86平台运行Android应用
      AMD今天宣布投资BlueStacks。这家风投资本支持创新软件公司的方案可以让Android应用在x86 Windows平台上快速、全屏运行。AMD、BlueStacks将联手优化后者开发的“BlueS...
    日期:07-24
    韵达快运电子面单怎么打「韵达快运快手电子面单正式上线 保护用户隐私」
    11月25日 消息:据韵达速递官方公告,继抖音电子面单上线后,韵达速递快手电子面单现已上线,持续满足客户多渠道购物需求,提供更便捷的购物体验。据悉,抖音于2021年3月正式推出了自...
    日期:12-03
    亨鑫科技再获四项发明专利证书_亨鑫科技再获四项发明专利证书是真的吗
    通信世界网消息(CWW)近日,亨鑫科技收到了国家知识产权局颁发的四项发明专利证书,分别为“一种应用于融合基站天线的一体化馈电网络的装置”、“一种基于无源去耦技术的天线阵列...
    日期:09-25