您的位置:首页 > 互联网

预测token速度翻番!Transformer新解码算法火了,来自小羊驼团队_transformer 解码过程

发布时间:2023-11-27 16:00:01  来源:互联网     背景:

声明:本文来自于微信公众号 量子位(ID:QbitAI),作者:丰色,授权转载发布。

小羊驼团队的新研究火了。

他们开发了一种新的解码算法,可以让模型预测100个token数的速度提高1.5-2.3倍,进而加速LLM推理。

比如这是同一个模型(LLaMa-2-Chat7B)面对同一个用户提问(苏格拉底采用了哪些方法来挑战他那个时代的主流思想?)时输出回答的速度:

左边为原算法,耗时18.12s,每秒约35个token;

右边为该算法,耗时10.4s,每秒约60个token,明显快了一大截。

简单来说,这是一种并行解码算法,名叫“Lookahead Decoding”(前向解码)。

它主要利用雅可比(Jacobi)迭代法首次打破自回归解码中的顺序依赖性(众所周知,当下大模型基本都是基于自回归的Transformer)。

由此无需草稿模型(draft model)或数据存储,就可以减少解码步骤,加速LLM推理。

目前,作者已给出了与huggingface/transformers兼容的实现,只需几行代码,使用者即可轻松增强HF原生生成的性能。

有网友表示:

该方法实在有趣,没想到在离散设置上效果这么好。

努比亚z11无边框手机

还有人称,这让我们离“即时大模型”又近了一步。

具体如何实现?

加速自回归解码的重要性

不管是GPT-4还是LLaMA,当下的大模型都是基于自回归解码,这种方法下的推理速度其实是非常慢的。

因为每个自回归解码步骤一次仅生成一个token。

这样一来,模型输出的延迟有多高就取决于回答的长度。

更糟的是,这样的操作方式还浪费了现代GPU的并行处理能:GPU利用率都很低。

对于聊天机器人来说,当然是延迟越低,响应越快越好(尤其面对长序列答案时)。

此前,有人提出了一种叫做推测解码的加速自回归解码的算法,大致思路是采用猜测和验证策略,即先让草稿模型预测几个潜在的未来token,然后原始LLM去并行验证。

该方法可以“凭好运气”减少解码步骤的数量,从而降低延迟.

但也有不少问题,比如效果受到token接受率的限制,创建准确的草稿模型也麻烦,通常需要额外的训练和仔细的调整等。

在此,小羊驼团队提出了一种的新的精确并行解码算法,即前向解码来克服这些挑战。

前向解码打破顺序依赖性

前向解码之所以可行,是作者们观察到:

尽管一步解码多个新token是不可行的,但LLM确实可以并行生成多个不相交的n-grams——它们可能适合生成序列的未来部分。

这可以通过将自回归解码视为求解非线性方程,并采用经典的Jacobi迭代法进行并行解码来实现。

在过程中,我们就让生成的n-grams被捕获并随后进行验证,如果合适就将其集成到序列中,由此实现在不到n个步骤的时间内生成n个token的操作。

作者介绍,前向解码之所以能够“脱颖而出”,主要是因为它:

网易严选网站官网登录

一不需草稿模型即可运行,简化了部署。

中兴Axon 30屏下至臻版

苹果手机屏幕限制时间不管用

二是相对于每步 log(FLOPs)线性减少了解码步骤数,最终在单个GPU、不同数据集上实现快1.5倍-2.3倍的token数预测。

token在线解码

更重要的是,它允许分配更多(大于1个GPU)的 FLOP,以在对延迟极其敏感的应用程序中实现更大程度地延迟下降,尽管这会带来收益递减。

下面是具体介绍:

1、前向解码的动机Jacobi在进行求解非线性系统时,一并使用定点迭代方法一次性解码所有的未来token。

这个过程几乎看不到时钟加速。

2、前向解码通过收集和缓存Jacobi迭代轨迹生成的n-grams来利用Jacobi解码的能力。

下图为通过Jacobi解码收集2-grams,然后验证并加速解码的过程。

3、每个解码步骤有2个分支:

前向分支维护一个固定大小的2D窗口,以根据Jacobi轨迹生成n-grams;验证分支验证有希望的n-grams。

作者实现了二合一atten mask,以进一步利用GPU的并行计算能力。

4、前向解码无需外部源即可立即生成并验证非常多的n-grams。这虽然增加了步骤的成本,但也提高了接受更长n-grams可能性。

换句话说,前向解码允许用更多的触发器来减少延迟。

5、作者检查了flops vs 延迟减少之间的缩放行为,并找到了缩放法则:

当n-grams足够大时(比如11-gram),以指数方式增加未来的token猜测(即窗口大小)可以线性减少解码步骤数。

作者介绍

本方法作者一共4位,全部来自小羊驼团队。

其中有两位华人:

傅奕超以及张昊,后者博士毕业于CMU,硕士毕业于上交大,现在是加州大学圣地亚哥分校助理教授。

参考链接:

[1]https://twitter.com/lmsysorg/status/1727056892671950887

[2]https://lmsys.org/blog/2023-11-21-lookahead-decoding/

[3]https://github.com/hao-ai-lab/LookaheadDecoding


返回网站首页

本文评论
加减茶饮加盟费 13万元「降价、圈地、被满减扼住喉咙,新茶饮加盟商的2022」
声明:本文来自于微信公众号 伯虎财经(ID:bohuFN),作者:东篱,授权转载发布。“之前生意是真的挺不错的,门店的收入也完全可以覆盖掉房租、员工、装修这类开支,但海珠区10月底这一波疫...
日期:01-09
360“隔离沙箱”评测:安全视频不中毒(360隔离沙箱无法运行程序)
  如今很多网友习惯在线观看各种高清大片、热门影视剧。这样虽然方便,却给了木马病毒可乘之机,尤其是一些视频网站的“专用播放器”,其中不少都捆绑了病毒,一运行就会感染电...
日期:07-30
海尔空调为何频频登上空调排名榜?高光殊荣给出答案_海尔跟格力空调哪个销量高
  立春已过、万象伊始,新的一年里很多人士也开始更换家里的老电器,开启了家电购置计划。在购买空调这类的家电时,大家往往比较关心空调排名这样的信息,以期望通过权威的数据...
日期:07-16
火车票超过8天能退吗「新型火车票来了:7天内任意时间可乘车 过期全额退款」
快科技6月7日消息,以往火车票购买时就确定了乘车时间,必须要准时赶到火车站乘车,对于旅游这种随意性较大的出行来说非常不便。据中国铁路消息,为进一步推进客票服务创新升级,满足...
日期:06-07
杭州亚运会目标导向城市亚运「从杭州亚运会窥见5G-A时代的愿景与落地」
从杭州亚运会窥见5G-A时代的愿景与落地 通信产业网|2023-10-13 15:38:17作者:通文来源:通信产业网日前,杭州亚运会圆满落下帷幕,本届亚运会中国代表团共获得201金111银71铜共383...
日期:10-15
库克经历「库克紧张了」
10月16日,苹果CEO库克出现在成都太古里,这是库克年内第二次访华,库克在3月时参加了在北京的发展高层论坛。macbookpro2020屏幕是oled吗短时间内,库克两次现身中国,被视为库克紧张...
日期:10-26
上演“史诗级灾难公关”:宝马蒸发市值可买约5亿个冰淇淋_宝马进军中国市场
快科技4月21日消息,谁也没料到,昨日爆发的宝马mini冰淇淋事件竟然愈演愈烈,而MINI中国发布的两篇道歉信,更是被网友称之为史诗级灾难公关”,而这也引发了宝马集团股价的持续下跌...
日期:04-21
测试:用户习惯是影响电脑速度的重要原因_电脑运行速度的影响因素
  根据近日一份调研报告显示:中国电脑平均开机时间为56秒,比健康指标慢11秒,差距达到四分之一!究竟是什么因素影响了电脑开机时间呢?笔者调查了办公室中10位同事的电脑,所有电...
日期:07-28
亩产1251.5公斤!袁隆平“超级稻”创世界新纪录_袁隆平超级水稻亩产超过1000
10月14日,2023年超级杂交稻单季亩产1200公斤超高产攻关测产验收会在四川省凉山州德昌县举行,最终测定3块田平均亩产1251.5公斤,创造了杂交水稻单季亩产的世界新纪录。特斯拉超...
日期:10-15
欧盟要求马斯克雇佣更多人工审查推文 而不是依赖人工智能_马斯克用人
3月8日消息:据FT报道,欧盟已经要求马斯克雇佣更多的人工审核员和事实核查员来审查推特上的帖子。这一要求使得马斯克重组推特亏损业务的努力更加复杂。自去年10月收购推特以...
日期:03-08
马斯克推特5月8号「推特再进一步!法院裁决马斯克必须向推特提供潜在投资者信息」
  讯 北京时间8月24日早间消息,据报道,美国法院要求特斯拉CEO埃隆·马斯克(Elon Musk)提交推特收购案潜在投资者的信息,这成为推特起诉马斯克弃购官司中取得的一项最新胜利。 ...
日期:08-25
“暴利”床垫,收割“汪小菲们”的钱包
声明:本文来自于微信公众号开菠萝财经(kaiboluocaijing),作者 | 苏琦 编辑 | 金玙璠,授权转载发布。一夜之间,全网都在好奇,什么床垫能值200万,还能抢世界杯的热度?随着汪小菲和大S...
日期:11-29
联想IdeaPadY330发售价「联想ideapady330」
联想 ideapady330 是一款适合学习和日常办公使用的笔记本电脑。它采用了 14 英寸的高清屏幕和第八代 Intel 处理器,具有出色的性能和使用体验。下面我们来详细了解一下它的特...
日期:06-04
中国移动全网重大通信故障定义总体分为哪几种类型故障「北京移动积极开展通信设施灾后重建工作」
通信世界网消息(CWW)今年8月“杜苏芮”台风袭至京城,门头沟、房山等地区的32个街镇、30余万人受灾,400多个通信基站退服。中国移动北京公司(北京移动)组织多路抢险救援队深入灾区,7...
日期:09-25
淘集集商家必备爆单爆款攻略_淘集集上货软件
  淘集集是一个目前正在高速发展的网络购物平台,目前对于电商从业者来说是一个打造爆款的好平台,但是也需要找对思路,优化运营方式。   每个商家都想要爆款爆单,那有什么方...
日期:02-24
宏碁掠夺者存储受邀参加2023微星龙盾局 将携Hermes DDR5新品内存亮相_宏碁掠夺者固态硬盘怎么样
2023 年的夏天,微星龙盾局嘉年华活动再次启程,首场线下交流会将于 7 月 1 日在花城广州正式拉开帷幕!宏碁掠夺者Predator作为现场唯 一内存品牌受邀参与活动,将与主办方一起为...
日期:06-30
网易云音乐2020年度报告入口「网易云音乐发布2022年财报:全年收入达90亿 增长28.5%」
2月23日,网易云音乐披露2022年全年业绩公告。财报显示,网易云音乐2022年全年净收入为90亿元,较2021年同比增长28.5%。得益于盈利能力提高、内容优化及版权结构的成本优化,于2022...
日期:02-26
“西霞口旅游”五福直播走红:超700万人围观大熊猫吃竹子
1月17日 消息:支付宝集五福活动开始以来,不仅掀起了全民集福热,也因看直播可得福卡的玩法,带火了多个商家直播间。近日,山东威海的“西霞口旅游”通过支付宝生活号,慢直播人气王...
日期:01-17
高德地图如何查看北斗卫星「高德地图上线北斗卫星定位查询系统」
11月17日消息,近日,高德地图上线了北斗卫星定位查询系统,用户在定位导航时可查看当前所调用的北斗卫星数量,以及具体编号、方位角、高度角、频点、信号强度相关详细信息。除此之...
日期:12-02
Google大会签到用Foursquare抛弃自家产品
  北京时间5月10日消息,据国外媒体报道,本周将举行的Google 全球I/O大会上,与会者发现了一个奇怪的现象:此次大会选定的签到服务为Foursquare,而不是Google旗下的签到产品“纬...
日期:07-27