您的位置:首页 > 互联网

斯坦福博士推加速推理新方法Flash-Decoding 长上下文LLM推理速度提8倍_斯坦福60题

发布时间:2023-10-18 11:21:08  来源:互联网     背景:

要点:

1. FlashAttention团队推出了一种新的方法,Flash-Decoding,用于加速大型Transformer架构的推理,最高可提速8倍,特别适用于长上下文LLM模型。

华赢电子科技

大连棒棰岛怎么去

2. Flash-Decoding的优点在于使用并行操作加载Key和Value缓存,然后重新缩放和合并结果,以显著提高推理速度。

3. 这个方法在CodeLLaMa-34b上进行了基准测试,结果显示Flash-Decoding可以将长序列解码速度提高8倍,同时具有更好的扩展性。

10月18日 消息:FlashAttention团队最近推出了一项名为Flash-Decoding的新方法,旨在加速大型Transformer架构的推理过程,特别是在处理长上下文LLM模型时。这项方法已经通过了64k长度的CodeLlama-34B的验证,而且得到了PyTorch官方的认可。

17年电视面板涨价

Flash-Decoding的核心思想是通过并行操作来加载Key和Value缓存,然后重新缩放并合并结果,从而实现大幅的推理速度提升。这个方法克服了在处理大型模型时注意力计算带来的性能瓶颈。

在基准测试中,作者将Flash-Decoding与其他注意力计算方法进行了比较,包括PyTorch原语运行的注意力、FlashAttention v2以及FasterTransformer的注意力内核。结果显示,Flash-Decoding可以将长序列解码速度提高8倍,并且在处理不同序列长度和批处理大小时表现出更好的扩展性。

这一方法的出现为大型Transformer模型的推理过程提供了更高效的解决方案,特别是在处理长上下文模型时,将大幅提高推理速度,有望在未来的大型自然语言处理任务中发挥重要作用。Flash-Decoding的实际使用方法也相对简单,可以根据问题的大小自动选择使用Flash-Decoding或FlashAttention方法。

作者团队中的Tri Dao是FlashAttention的主要作者,他已经加入大模型创业公司Together AI,并将担任普林斯顿大学的助理教授。这个新方法的推出为深度学习领域带来了更多的创新和性能提升。

参考资料:https://princeton-nlp.github.io/flash-decoding/

斯坦福大学的加速器


返回网站首页

本文评论
乌冬面里吃出活青蛙 日本连锁店鞠躬道歉:网友看完大呼恶心
据日本J-CAST”新闻网23日报道,当地时间22日,一段显示从乌冬面里吃出活青蛙”的视频在日本网络上热传。涉事连锁店丸龟制面”23日在官方网站上发布声明,承认视频中显示的情况属...
日期:05-24
马上金融聚焦科技创新,绿色金融变革_绿色金融科技助力绿色低碳转型
  在“碳中和”目标下,绿色金融将迎来发展爆发期。国家外汇管理局副局长陆磊近日表示,展望“十四”,以新发展理念推动高质量发展是金融工作的主题主线。今年3月召开的中央财...
日期:04-06
oppo的最新手机reno8「“被嫌弃”的骁龙7:OPPO Reno9或将改用骁龙778G处理器」
一般来说,厂商在推出新机时,都会遵循买新不买旧”的原则,采用相对较新的处理器。但根据知名博主数码闲聊站今天透露的信息,OPPO Reno系列的新机,Reno9将不会遵循这一惯例”。据悉...
日期:10-03
抖音商家认证代理「抖音电商公布首批FACTOR认证服务商」
9月29日消息,抖音电商日前公布首批FACTOR认证服务商,共有8家服务商上榜,名单如下:你以为的是这样的 实际上是这样的剪辑芜湖詹科电子商务有限公司;浙江博观瑞思科技有限公司;上...
日期:10-02
ebay 营收「同比扭亏为盈,eBay第一季度营收25亿美元」
4月27日消息,eBay发布2023财年第一季度财报。财报显示,eBay第一季度净营收为25.10亿美元,与去年同期的24.83亿美元相比增长1%。极米和当贝投影哪个好?告诉你当贝投影画质惊人的...
日期:09-30
利用检索增强生成技术提升语言模型的能力_利用检索增强生成技术提升语言模型的能力是
文章要点:检索增强生成(RAG)方法可以让语言模型访问最新的知识库,从而提高模型在实际业务中的应用能力。RAG 方法相比重新训练模型或微调模型更为便宜和容易实现,同时也避免了数...
日期:08-09
巴黎接棒奥运!用大眼橙X11巨屏看奥运闭幕式
  2021年8月8日晚,在东京新国立竞技场举行的闭幕式为历史上最特殊的奥运会画上句点。不同于开幕式时候诡异的氛围,本届奥运会闭幕式充斥着更多的是欢快的气氛,仿佛在感谢两...
日期:12-06
华为申请hc「华为已申请GPT相关商标“HUAWEI NETGPT”」
6月5日 消息:企查查APP显示,近日,华为技术有限公司申请注册了两枚“HUAWEI NETGPT”商标,国际分类包含科学仪器、设计研究,当前商标状态为注册申请中。三星猎户座芯片能崛起吗京...
日期:06-06
安全可信!星环科技提升数据要素流通安全性、便利性_星环科技值得去吗
通信世界网消息(CWW)基于在大数据、分布式数据库、隐私计算、数据安全流通领域的多年积累,星环科技研发了数据要素流通全过程的一系列工具,5月26日“向星力”未来数据技术峰会上...
日期:05-27
2023可信数据库发展大会在京成功召开!_可靠性数据库
2023可信数据库发展大会在京成功召开! 通信产业网|2023-07-04 20:41:59作者:通文来源:通信产业网当前,全球数字经济加速发展,数据正在成为重组全球要素资源、重塑全球经济结构、...
日期:07-05
抖音电商:过去一年优质内容创作者数量增长484%_抖音电商业绩
2月9日 消息:抖音电商“寻找同行者”举办优质内容分享专场,数据显示,截至去年10月,抖音电商优质内容创作者数量较年初增长484%;平台挖掘优质短视频超147万条,助力超26万名创作者...
日期:02-09
Linux基金会推出联盟AI解决方案促进数据建模
  导读: 微众银行向Linux基金会贡献联盟AI解决方案框架,建立中立社区监督开发【KubeCon + CloudNativeCon2019年6月24日上海】今天,以开源促进大众创新的非营利组织Linux基...
日期:10-05
“接棒”孟晚舟,胡厚崑首秀来了!聚焦5.5G,华为产业链又要爆了?
每经编辑:黄胜“接棒”孟晚舟,10月10日,华为轮值董事长胡厚崑迎来了当值轮值董事长后首秀。胡厚崑首秀聚焦5.5G在迪拜召开的第14届全球移动宽带论坛MBBF上,华为轮值董事长胡厚崑...
日期:10-11
大尺寸墨水屏「5499元 大我首款彩色墨水屏办公本发布:可播放视频」
2月24日消息,大我科技发布了新款彩色墨水屏智能办公本inkNote Color+,10.3英寸Kaleido 3材质显示屏,售价5499元。据介绍,E Ink Kaleido 3以彩色印刷式电子纸技术 ( Print Color...
日期:02-25
出海2022:沉浮翻滚中,寻找确定性的“锚”
来源:每日经济新闻   记者/叶晓丹; ;   编辑/董兴生;;   “我不杀伯仁,伯仁却因我而死。”这句古谚语或许是眼下部分跨境电商企业的真实写照。   2021年下半年开始的...
日期:08-16
丰田计划推电动汽车新平台,丰田章男:电动车业务必须要实现盈利
1月14日消息,本周五日本汽车制造商丰田在日本东京车展上发布了两款对经典车型进行改造的纯电版和氢动力版概念车。公司正计划推出大量生产电动汽车的专用平台。丰田总裁丰田...
日期:01-14
泰丰集团李永虎:我想要一朵不需要我关心的云
  近年来,地产行业流行“白银时代的核心竞争力在数字化转型”的说法,即在地产红利逐渐消退的趋势下,广大地产企业如何通过数字化转型,获得比竞争对手更敏锐的洞察力和执行效...
日期:07-17
随身电脑「随身电脑包加20寸行李可以登国际航班吗」
,也被称之为便携式电脑,它是一种可以随身携带的、无需接电源就能够正常运行的个人电脑。它很小巧,重量轻,且易于携带,因此在短途旅行或外出办公时非常受到人们的欢迎。的优点在于...
日期:05-29
人工智能伦理危机「莫迪:需要全球框架确保人工智能的伦理使用」
文章概要:1. 莫迪在B20峰会上称,需要建立全球框架,确保人工智能的伦理使用,避免算法偏见影响社会。2. 莫迪警告企业,如果供应链韧性和可持续性得不到改善,会酿成一种新形式的殖民...
日期:08-28
比亚迪海豹DM-i上市:总续航1300公里 售价16.68万元起
【网易科技9月6日报道】今日,由比亚迪海洋网推出的海豹DM-i上市,新车共6款车型,售价为16.68万-23.68万元。据介绍,此款新车是基于全新DM-i超级混动中型车平台打造,车身尺寸为4980...
日期:09-07