您的位置:首页 > 互联网

田渊栋新作:打开1层Transformer黑盒,注意力机制没那么神秘「田渊清志」

发布时间:2023-06-11 21:17:29  来源:互联网     背景:


新智元报道

编辑:LRS

曝谷歌Pixel 7系列售价

【新智元导读】AI理论再进一步,破解ChatGPT指日可待?

Transformer架构已经横扫了包括自然语言处理、计算机视觉、语音、多模态等多个领域,不过目前只是实验效果非常惊艳,对Transformer工作原理的相关研究仍然十分有限。

其中最大谜团在于,Transformer为什么仅依靠一个「简单的预测损失」就能从梯度训练动态(gradient training dynamics)中涌现出高效的表征?

win8支持usb3.0吗

最近田渊栋博士公布了团队的最新研究成果,以数学严格方式,分析了1层Transformer(一个自注意力层加一个解码器层)在下一个token预测任务上的SGD训练动态。


论文链接:https://arxiv.org/abs/2305.16380

这篇论文打开了自注意力层如何组合输入token动态过程的黑盒子,并揭示了潜在的归纳偏见的性质。

具体来说,在没有位置编码、长输入序列、以及解码器层比自注意力层学习更快的假设下,研究人员证明了自注意力就是一个判别式扫描算法(discriminative scanning algorithm):

从均匀分布的注意力(uniform attention)开始,对于要预测的特定下一个token,模型逐渐关注不同的key token,而较少关注那些出现在多个next token窗口中的常见token

对于不同的token,模型会逐渐降低注意力权重,遵循训练集中的key token和query token之间从低到高共现的顺序。

有趣的是,这个过程不会导致赢家通吃,而是由两层学习率控制的相变而减速,最后变成(几乎)固定的token组合,在合成和真实世界的数据上也验证了这种动态。

田渊栋博士是Meta人工智能研究院研究员、研究经理,围棋AI项目负责人,其研究方向为深度增强学习及其在游戏中的应用,以及深度学习模型的理论分析。先后于2005年及2008年获得上海交通大学本硕学位,2013年获得美国卡耐基梅隆大学机器人研究所博士学位。


曾获得2013年国际计算机视觉大会(ICCV)马尔奖提名(Marr Prize Honorable Mentions),ICML2021杰出论文荣誉提名奖。

曾在博士毕业后发布《博士五年总结》系列,从研究方向选择、阅读积累、时间管理、工作态度、收入和可持续的职业发展等方面对博士生涯总结心得和体会。

揭秘1层Transformer

基于Transformer架构的预训练模型通常只包括非常简单的监督任务,比如预测下一个单词、填空等,但却可以为下游任务提供非常丰富的表征,实在是令人费解。

之前的工作虽然已经证明了Transformer本质上就是一个通用近似器(universal approximator),但之前常用的机器学习模型,比如kNN、核SVM、多层感知机等其实也是通用近似器,这种理论无法解释这两类模型在性能上的巨大差距。

研究人员认为,了解Transformer的训练动态(training dynamics)是很重要的,也就是说,在训练过程中,可学习参数是如何随时间变化的。

文章首先以严谨数学定义的方式,形式化描述了1层无位置编码Transformer的SGD在下一个token预测(GPT系列模型常用的训练范式)上的训练动态。

1层的Transformer包含一个softmax自注意力层和预测下一个token的解码器层。


k12在线教育行业

在假设序列很长,而且解码器的学习速度比自注意力层快的情况下,证明了训练期间自注意力的动态行为:

1. 频率偏差Frequency Bias

模型会逐渐关注那些与query token大量共现的key token,而对那些共现较少的token降低注意力。

2. 判别偏差Discrimitive Bias

模型更关注那些在下一个要预测的token中唯一出现的独特token,而对那些在多个下一个token中出现的通用token失去兴趣。

这两个特性表明,自注意力隐式地运行着一种判别式扫描(discriminative scanning)的算法,并存在归纳偏差(inductive bias),即偏向于经常与query token共同出现的独特的key token

此外,虽然自注意力层在训练过程中趋向于变得更加稀疏,但正如频率偏差所暗示的,模型因为训练动态中的相变(phase transition),所以不会崩溃为独热(one hot)。


学习的最后阶段并没有收敛到任何梯度为零的鞍点,而是进入了一个注意力变化缓慢的区域(即随时间变化的对数),并出现参数冻结和学会(learned)。

研究结果进一步表明,相变的开始是由学习率控制的:大的学习率会产生稀疏的注意力模式,而在固定的自注意力学习率下,大的解码器学习率会导致更快的相变和密集的注意力模式。

研究人员将工作中发现的SGD动态命名为扫描(scan)和snap:

扫描阶段:自注意力集中在key tokens上,即不同的、经常与下一个预测token同时出现的token;其他所有token的注意力都下降。

snap阶段:注意力全中几乎冻结,token组合固定。

智能汽车展会

田渊裕章


这一现象在简单的真实世界数据实验中也得到验证,使用SGD在WikiText上训练的1层和3层Transformer的最低自注意力层进行观察,可以发现即使在整个训练过程中学习率保持不变,注意力也会在训练过程中的某一时刻冻结,并变得稀疏。

参考资料:

https://arxiv.org/abs/2305.16380


返回网站首页

本文评论
口播类原生母婴博主,如何利用视频号成为教育IP?「育儿视频号简介」
声明:本文来自于微信公众号 那个吴小明(ID:haorank123),作者:所长,授权转载发布。母婴类视频号到底怎么做?这是【明析视频号】专栏的第一个专题,在母亲节期间,我们分别采访了三位...
日期:05-11
成都富士康限电停产一周_富士康会停电吗
  财联社8月15日电,财联社记者从负责富士康招聘的中介处了解到,成都富士康从15日至20日限电,仅保留20%保安负载,全厂生产停止。生产线员工对财联社记者表示,已接到休息通知。(财...
日期:09-26
清华-青腾未来科技学堂_北大-青腾未来产业学堂首期开学,48位数字化产业先锋齐聚首
  10月19日,由北京大学光华管理学院和腾讯青腾大学联合创办的中国首个产业互联网学堂——北大-青腾未来产业学堂,在北京大学光华管理学院举行了开学典礼。   随着云计...
日期:08-15
男子订民宿被毁约 房东:住满了 没办法_民宿订好被房东拒绝可以赔偿吗
5月1日消息,据星视频报道,诸先生一家和朋友10天前在平台提前订购了五一假期前往青岛金沙滩地中海两天的别墅民宿,并支付房款9600元。当天快到达目的地前一个半小时联系房东,却发...
日期:05-02
快手造芯,聚焦视频压缩
骁龙845旗舰机   文/郑可书 刘以秦   编辑/刘以秦   又一家互联网大厂开始造芯。   8月10日,快手StreamLake品牌发布会上,快手高级副总裁于冰宣布,快手研制出云端智能...
日期:08-11
康佳39周年庆主场选苏宁,周彬率队来访聊了啥?
  需求下滑、产品同质化、低价竞争……2019年的彩电市场,触碰到了增长的天花板。是继续保持温水煮青蛙的现状,还是拥抱变化破局重生,考验着所有品牌商和渠道商的战略智慧。...
日期:02-02
2020中国互联网公益峰会“云端”召开 陈一丹倡导“同舟共济,向阳而生”
  科技对公益的助力或许会遇挑战,但从不会掉线。3000家机构同时在线参会怎么实现?今天公益界做到了。   在今天举行的2020年中国互联网公益峰会上,3000余家公益机构和社...
日期:07-14
Python 3.9.0 alpha 1发布,系3.9系列首个迭代版本_python3.9对应的anaconda版本
  Python 3.9.0 alpha 1 发布了,这是3.8之后的首个3.9系列版本。   官方没有介绍新特性,也没有添加新模块,但是以下模块有所改进:   ast   asyncio   curses   fc...
日期:06-20
购机即可抽女神节礼盒:荣耀V40线上线下联动献礼(荣耀v40预售活动方案)
  女神节将至,荣耀于3月4日公布了促销方案,联手野兽派定制精美礼盒献礼女性。从3月5日到8日线上购机即有机会抽取礼盒,另有免息福利。而线下指定门店的购机抽礼盒活动时间则...
日期:07-16
小米要做小屏旗舰「小米CEO称小屏手机市场有限」
小米创始人雷军在回应用户对小屏手机的需求时表示,小米13已经是一个很好的选择,小屏手机的消费群体有限,无法承受旗舰手机的开发成本。雷军还强调了小米13的特点,包括小尺寸,四窄...
日期:04-25
飞猪旗舰店双11期间上线多款酒店新品_飞猪全球游酒店旗舰店
10 月 28 日消息,双 11 期间,万豪、雅高、万达、洲际、凯悦等酒店集团相继在其飞猪官方旗舰店首发新品。同时,今年万达酒店及度假村有超过 20 款商品在飞猪双 11 售卖,其中北京...
日期:10-29
QQ输入法神配图_QQ输入法全新神配图 一键直发斗图稳赢
  现今不论哪个年龄段的用户,在聊天中使用表情已经成为常态。对大家来说,使用表情包既能风趣的表达自己的想法个性,还可以调节聊天气氛,增进感情。作为社交语言的新载体,尤其...
日期:12-17
日本强烈地震导致部分知名产业受重创的原因_日本强烈地震导致部分知名产业受重创
  日本当地时间3月11日下午2点46分左右,日本东北地区宫城县北部发生里氏8.9级地震,震中位于宫城县以东太平洋海域,震源深度10公里。该次地震发生后,日本股市大幅下跌,而日本部...
日期:07-26
国际大数据与人工智能线上峰会召开,中科曙光:抓住“新基建”风口,做深大数据
  3月13日-14日,以“促进工业界和学术界的对话”为主题的BenchCouncil国际大数据与人工智能线上峰会拉开帷幕。中科曙光作为代表,与来自阿里巴巴、Facebook等企业及教育、...
日期:09-10
台积电晶圆厂整体产能利用率或在明年上半年降至 80%_台积电每年产值
11月29日消息:据DigiTimes报道显示,台积电晶圆厂整体的产能利用率,在明年上半年预计降至80%,其中7nm和6nm制程工艺的产能利用率将大幅下滑,5nm和4nm制程工艺的产能利用率,预计从...
日期:12-02
iPhone14疑似饥饿营销!Pro系列要等45天_苹果12pro max饥饿营销
中关村在线消息:10月12日,据相关爆料,有不少网友反馈,自己购买了iPhone14 Pro系列机型却迟迟不发货,即便是在首发后订购的手机依然没有等到新机发货,最长的用户已经等到了50天左右...
日期:10-13
安卓14引入新API,可查看手机的详细电池健康状况「安卓查看电池情况」
安卓14引入新API,可查看手机的详细电池健康状况 IT之家  故渊 根据 Esper.io的 Mishaal Rahm...
日期:06-02
探访海伦司冷清背后:想卖烧烤不易,低价标签难改「海伦司视频」
声明:本文来自微信公众号“奇偶派”(ID:jioupai),作者:范文 ,编辑:钊,授权转载发布。“走到玉林路的尽头,坐在小酒馆的门口。”歌手赵雷一曲《成都》,让许多人第一次患上“小酒馆情...
日期:03-08
杰和智慧广告牌前端播放器新品DN74解析
  5G时代来临对于商显的重要性不言而喻,智慧商显设备在显示技术、传输效率及平台稳定性等方面均得以提升,向着4K高清、互动交互化发展,商显广告屏自助服务终端、触控一体机...
日期:04-06
辅助驾驶功能新车市场渗透率超三成 是否“鸡肋”引热议_汽车辅助驾驶系统的现状
  中新网9月27日电(中新财经 葛成)辅助驾驶“白送可以,付费不行”,这一观点最近引发热议。业内对辅助驾驶功能是不是“鸡肋”争论不休,用户对于辅助驾驶的安全性也有担忧,但不容...
日期:09-27