您的位置:首页 > 互联网

FastGen:在不降低LLM质量的情况下降低GPU内存成本_如何降低gpu的使用

发布时间:2024-05-13 13:38:54  来源:互联网     背景:

划重点:

- ⭐FastGen 一种高效的技术,可以提高 LLM 的推理效率,而不会降低可见质量。

降低gpu使用

- ⭐FastGen 轻量级模型分析和自适应键值缓存来实现。

- ⭐FastGen 通过自适应的键值缓存构造来少生成推理过程中的 GPU 内存使用量。

5月13日 消息:研究人员来自伊利诺伊大学厄巴纳 - 香槟分校和微软提出了一种名为 FastGen 的高效技术,通过使用轻量级模型分析和自适应键值缓来提高 LLM 的推理效率,而不会降低可见质量。FastGen 通过自适应的键值缓存构造来减少生成推理过程中的 GPU 内存使用量。

FastGen 的自适应键值缓存压缩方法减小了 LLM 生成推理内存占用。该方法涉及两个步骤:

1. 提示编码:注意模块需要从前面的 i-1标记中收集上下文信息,以生成 LLM 的第 i 个标记。

如何降低gpu的使用

2. 令牌生成:当完成提示编码后,M 逐个标记生成输出,对于每个步骤,使用 LLM 对上一步生成的新标记进行编码。

xgp2023年热门游戏

如何降低gpu的使用

对于 B 模型,FastGen 在所有非自适应键值缓存压缩方法中表现最佳,并随着模型规模的增加而得更高的键值缓存压缩比例,同时保持模型的质量不受影响。例如,与 Llama17B 上的16.9% 压缩比例相比,FastGen 在 Llama1-65B 上获得了44.9% 的缩比例,达到了45% 的胜率。此外,对 FastGen 进行了敏感性分析,选择了不同的超。由于模型保持45% 的胜率,研究表明在更改超参数后对生成质量没有明显影响。

伊利诺伊大学厄巴纳 - 香槟分校和微软的研究人员提出了 FastGen,一种新的技,通过使用轻量级模型分析和自适应键值缓存来提高 LLM 的推理效率,而不会降低见质量。研究人员引入的自适应键值缓存压缩通过 FastGen 构建,以减少 LLM 生成推的内存占用。未来的工作包括将 FastGen 与其他模型压缩方法(如量化和蒸馏、分组查询注意等)进行整合。

论文地址:https://arxiv.org/abs/2310.01801


返回网站首页

本文评论
华硕 ROG 游戏手机 6 天玑至尊版渲染图曝光「华硕ROG6」
IT之家 8 月 31 日消息,华硕 ROG 游戏手机 6 天玑至尊版将于 9 月 19 日正式发布,预计搭载天玑 9000+ 处理器。今日,爆料大神Evan Blass和外媒 91mobiles 共同放出了该机的高清...
日期:09-07
iPhone 13供应链_郭明錤:目前iPhone 14机型的供应链没有受到影响
【手机中国新闻】近日,媒体称苹果已经开始录制9月份的发布会了,但有消息称新品可能会延后发布。对此,天风国际知名苹果分析师郭明錤表示,目前iPhone 14机型的供应链没有受到影响...
日期:08-20
国家公园金银纪念币工艺有多精密,放大镜下才识真面目!_金银纪念币网站
(原标题:国家公园金银纪念币工艺有多精密,放大镜下才识真面目!) 8月19日,央行发行了国家公园金银纪念币,实物图已经足够精致好看,但...
日期:08-22
“蛋仔守护月”专注未成年人反诈教育,蛋仔派对建设安全网络空间
作为一款广受低龄玩家群体欢迎的国民级手游,《蛋仔派对》不仅为未成年用户提供了丰富多彩的游戏内容,更积极承担起保护未成年人网络安全的重任。为了进一步加强未成年人的反诈...
日期:04-22
谷歌推客户化搜索 增加Google+好友共享
8月14日消息,据国外媒体报道,为了战胜微软必应搜索引擎,谷歌为其搜索增加一项新功能,开始向用户搜索结果中加入用户联系人在Google+服务中公开共享的内容。 谷歌周五(8月12...
日期:07-22
“所有女生”们走上台前,助播直播为什么火了?「直播场助是干嘛的」
声明:本文来自于微信公众号 TopKlout克劳锐(ID:TopKlout),作者:白羊,授权转载发布。11月12日,李佳琦在直播间官宣了一个名为“所有女生”的新直播间。当天晚上,旺旺以及庆子等李佳...
日期:11-26
蚂蚁集团旗下语雀公布服务故障赔偿方案:赠送6个月会员服务_语雀 会员
10月25日 消息:10月23日,蚂蚁集团旗下协同工具“语雀”发生了重大的服务故障,持续了7个多小时才完全恢复。故障的原因是数据存储运维团队在进行升级操作时出现了 bug,导致存储...
日期:10-25
顺丰丰修召开2019品牌升级媒体沟通会 服务赋能让一切皆有可能
  5月24日消息 顺丰旗下售后供应链服务品牌顺丰丰修在北京召开以“售后赋能 智能物联”为主题的顺丰丰修2019品牌升级沟通会。 顺丰丰修召开2019品牌升级媒体沟通会  ...
日期:11-12
遥望科技与小冰公司达成合作 推动虚拟人、AI产品在直播行业应用
5月15日 消息:今日,遥望科技与小冰公司签订关于《直播电商人工智能技术/产品战略合作》的协议,双方将以资源互补为核心,就人工智能技术/产品的研发、推广、销售等事项在相关领...
日期:05-15
快手短剧日均DAU达2.7亿 创作者数量突破10万_快手短视频一天能挣多少钱
1月12日 消息:在最新的快手短剧生态大会上,快手副总裁兼快手文娱业务负责人陈弋弋透露快手星芒短剧在2023年的惊人成绩。这次的盛会将目光聚焦在短剧创作和观众规模的增长,以...
日期:01-12
一图看懂iQOO Neo8 Pro 3099元起玩手游选它准没错_iqooneo8怎么样
中关村在线消息:5月23日晚19:00,iQOO Neo8 Pro正式发布。作为一款性能先锋,该机搭载了实力强劲的天玑9200 芯片,搭配自研影像芯片V1 以及一系列强劲硬件,为用户的游戏体验保驾护...
日期:05-24
蚂蚁集团在线文档工具“语雀”推出独立 App
  蚂蚁集团旗下的在线文档编辑与协同工具“语雀”在经过近半个月的内测后,于昨日推出了独立 App,包括安卓版和 iOS 版,此前语雀仅提供网页和 PC 版。   语雀移动端支持切...
日期:12-20
火爆网络 小姐姐等疯狂展示的“多巴胺”穿搭真会让人快乐吗?专家释疑
粉红的发饰搭配亮黄色的上衣和浅粉色的裙子,这就是最近火爆网络的多巴胺穿搭”。多巴胺穿搭”是否真的能让人身心愉悦?武汉大学中南医院神经内科主任医师肖劲松介绍,穿衣色彩搭...
日期:06-03
岚图汽车欧洲市场再下一城:携梦想家等三款车型于丹麦上市销售
快科技10月29日消息,我们从岚图汽车官方获悉,日前,岚图汽车继进军挪威、芬兰等国之后,于10月26日上午10:00在丹麦发布。三星手机地位联想黄金斗士note8多少钱同时,位于哥本哈根的...
日期:10-29
比亚迪同价位车「不止销量碾压!比亚迪均价17.2万元 甩开大众、丰田等合资车」
11月3日,比亚迪公布2022年10月产销快报,新能源汽车销量约21.78万辆,同比增长142.2%;相比上个月增加1.6万辆,仅增加的数量就超过一家新势力了。比亚迪本年累计汽车销量约139.79万...
日期:11-09
首发7940HX+RTX 4060 华硕天选5 Pro真香预售价7999元
首发7940HX+RTX 4060 华硕天选5 Pro真香预售价7999元 通信产业网|2024-01-23 21:06:10作者:通文来源:通信产业网1月23日,华硕天选5 Pro锐龙版高性能游戏本在华硕天选2024新品发...
日期:01-26
言图app「商汤前员工创立言图智能 为企业提供定制化 AI 助手服务」
7月25日 消息:近日,商汤前员工在深圳成立了一家创业公司,名为言图智能。这家公司的目标是利用语言大模型技术为企业提供定制化的 AI 助手服务。言图智能的创始团队由两位产品...
日期:07-25
格力电器分红后股价是多少「格力电器宣布56亿现金分红 每10股派10元」
2月21日 消息:今日,珠海格力电器股份有限公司(以下简称“格力电器”或“公司”)发布2022年中期权益分派实施公告。格力电器表示,公司2022年中期权益分派方案已获2022年12月28日...
日期:03-01
做大厂程序员是一种怎样的体验?(程序员去大厂好还是小厂?)
  程序员是个特殊“物种”,在外界印象中,他们身穿格子衬衫、顶着秃头还对女朋友说些听不懂的技术黑话。   “程序猿”“攻城狮”等调侃话术随处可见,但同时,程序员们的工资...
日期:01-07
红杉中国宣布成立创业加速器YUÈ
界面新闻获悉,8月15日,红杉中国宣布成立创业加速器YUÈ,为处于天使轮到A轮的中国创业者提供红杉独家研发的体系化创业课程和资源服务。   创业加速器YUÈ由红杉全球执行合伙...
日期:08-17