您的位置:首页 > 互联网

只激活3.8B参数,性能比肩同款7B模型!训练微调都能用,来自微软

发布时间:2024-07-18 15:04:32  来源:互联网     背景:

声明:本文来自于微信公众号 量子位 (ID:QbitAI),作者:克雷西 ,授权转载发布。

只需激活60%的参数,就能实现与全激活稠密模型相当的性能。

微软亚洲研究院的一项新研究,实现了模型的完全稀疏激活,让推理成本大幅下降。

而且适用范围广泛,无论是从头训练、继续训练还是微调,都能提供有效支持。

该方法名为Q-Sparse,在神经元级别上实现了模型稀疏化,相比于其他方式粒度更细,在相同推理开销下,无论性能还是稀疏率都更好。

名称之中,Q指的是量化(Quantization),意味着它除了普通模型之外,也兼容量化技术,适用于各种量化方式的模型。

作者进一步表示,如果把Q-Sparse与模型量化技术结合,还可以实现更大程度的降本增效。

另外在研究Q-Sparse的同时,团队也对参数规模、稀疏率和模型性能三者之间的关系进行了深入探寻,并发现了适用于模型推理优化的“Scaling Law”。

有网友认为,这项技术确实不错,而且比ReLU要更好。

还有人开启了许愿模式,表示如果(AMD的)ROCm能比英伟达更快支持这项技术就好了。

用Top-K函数实现稀疏化

Q-Sparse所做的最核心的操作,是对输入的张量应用Top-K稀疏化函数。

具体来说,Transformer架构在注意力层和前馈层中都使用nn.Linear线性层(矩阵乘法)进行投影,可以表示为Y=X·W^T。(其中X就是输入张量,W代表其权重,Y为输出张量)

Q-Sparse中,对于一个输入激活张量X,首先会计算其绝对值|X|并进行排序,找出其中绝对值最大的K个元素。

这里的K是预先设定的超参数,决定了稀疏化的程度。

之后Q-Sparse会创建一个与X形状相同的二进制掩码张量M,对于一系列|X|中绝对值最大的K个元素对应的位置,将M中的相应位置设置为1,其余位置设置为0。

接着,将输入张量X与掩码张量M进行Hadamard积(逐元素相乘)运算,就得到了稀疏化的张量X_sparse。

在前向传播过程中,稀疏化后的张量X_sparse将代替原始的输入张量X参与后续的计算(如矩阵乘法)。

由于X_sparse中大部分元素已经被设置为零,因此可以显著减少计算量和内存带宽需求。

在反向传播过程中,Q-Sparse使用了直通估计器(Straight-Through Estimator,STE)来计算Top-K函数的梯度。

传统的训练方式中,通常需要计算损失函数对网络参数的梯度,并使用梯度下降法更新参数以最小化损失。

但当网络中存在量化、Top-K等一些不可微的操作时,梯度的计算就会遇到问题,因为这些操作的输出对输入的梯度在大多数点上都是0,导致梯度无法有效传播。

饿了么外卖是24小时的吗

STE通过直接将梯度传递给稀疏化之前的张量,避免了梯度消失的问题。

一般的反向传播中,损失函数L对x的梯度∂L/∂x=∂L/∂y⋅∂y/∂x,但由于不可微分无法直接计算。

STE的解决方案是只计算损失函数对稀疏化张量y的梯度,然后将其直接复制给原始张量x,也就是直接将∂L/∂y作为∂L/∂x的估计。

△有/无STE时的梯度比较

对于前馈层,Q-Sparse使用平方ReLU函数代替常规的ReLU激活函数,平方运算可以进一步提高激活的稀疏性(⊙表示Hadamard积)。

另外,为了适配量化模型,Q-Sparse在应用Top-K稀疏化之前,会先对输入张量进行量化,以确保稀疏化操作与量化表示兼容,其函数表示如下:

其中,ε是一个小常数,用于避免出现分母为零的情况。

特别的,对于1-bit量化的权重,Q-Sparse使用以下量化函数,其中α是权重张量W的平均绝对值。

60%激活参数达到相同效果

对比实验表明,无论是稀疏率还是模型表现,Q-Sparse都显著优于此前的ReLU方法。

针对Q-Sparse的具体效果,作者对其在从头训练、继续训练和微调三项任务上的性能进行了评估。

从头训练实验使用的模型为Llama,结果在700M和7B模型上,使用70% top-K(即40%的整体稀疏率)的Q-Sparse可以达到与密集baseline相当的训练损失。

继续训练的目的是将稠密模型稀疏化,这里的实验对象是Mistral-7B。

结果,在激活参数为2.9B和3.8B的情况下,模型在ARC、MMLU等数据集中的得分均未发生明显下降。

在微调实验中,对于Qwen-7B和Mistral-7B两种模型,Q-Sparse显示出了与继续训练相似的结果,用60%左右的激活参数实现了与密集模型十分接近的表现。

这些结果意味着,在相同的性能下,与密集模型相比,稀疏激活模型在推理过程中可以显著减少激活参数,进而降低消耗FLOPS的数量。

对于量化模型,团队在自研的BitNet b1.58模型上应用了Q-Sparse,并在多个数据集上进行了训练和评估。

可以看到,在700M和7B两种规模下,使用Q-Sparse的量化模型的收敛速度和最终损失函数值与未使用Q-Sparse的量化模型(BitNet b1.58)相当。

这说明Q-Sparse可以无缝集成到量化模型中,而不会显著影响模型的训练和收敛。

据此作者认为,将Q-Sparse与量化技术相结合,可以进一步提高大语言模型在推理阶段的效率。

发现推理优化新“Scaling Law”

除了测评这些模型采取稀疏激活时的表现,作者也对模型性能、规模和稀疏率三者之间的关系进行了探究,并有了一些新的发现。

稀疏激活模型的性能缩放定律: 作者发现,与密集模型类似,稀疏激活模型的性能也遵循一个幂律缩放关系。

具体来说,给定稀疏率S,模型在收敛时的损失函数值L(N,S)可以用以下公式近似:

三星屏下指纹获专利

其中,N是模型参数的数量;E是一个常数,表示模型在无限大时的损失;A(S)是一个与稀疏率S有关的缩放因子。

这个缩放定律表明,稀疏激活模型的性能随着模型规模的增大而提高,但提高的速度会逐渐变慢。

同时作者发现,模型的性能也会受到稀疏率的影响。

在参数规模与性能之间关系的部分提到,A(S)是一个与稀疏率S有关的缩放因子,可以用以下公式近似:

其中B和C是常数,β是一个控制指数衰减速度的参数。

这个公式表明,当稀疏率S增大(模型变得更稀疏)时,意味着更高的稀疏率会导致性能的下降,下降的速度是指数级的。

基于上述发现,作者得出了一个推理最优的稀疏率S*,能在预算(推理时的浮点操作数)一定时,实现模型损失函数值的最小化。

对于全精度(FP32)模型,最优稀疏率约为45.58%;而低精度(如1.58-bit)模型的最优稀疏率则更高,约为61.25%。

作者观察到,随着模型规模的增大,稀疏激活模型与密集模型之间的性能差距逐渐缩小。

这可以从缩放定律中得到解释:当模型规模N趋于无穷大时,稀疏激活模型的损失函数值趋于L(∞,S)=E,而密集模型的损失函数值趋于L(∞,0)=E。

这意味着,在极大规模下,稀疏激活模型有可能达到与密集模型相当的性能,为设计和训练大规模稀疏激活模型提供了一个有用的参考。

论文地址:https://arxiv.org/abs/2407.10969

—完—


返回网站首页

本文评论
苹果15正式发布时间「iPhone 15出货将超1亿部,OLED供应情况揭晓」
据报道,在为iPhone 15供应面板的争夺战中,三星显示凭借其技术取得了压倒性胜利。三星显示预计将占据 iPhone 15 面板初始出货量的约四分之三。台积电芯片代工宣布全面涨价据显...
日期:09-14
家长花23万给孩子补课「家长晒娃暑假账单:已花费近3万 仅4门课就花了1万多元」
近日,不少家长晒娃暑假账单,调查显示,暑期花销在5000元至10000元之间的家庭最多。家长晒出的暑期账单中,仅四门课程就花费了一万多元,再加上旅行费用,总计接近3万元。教育部和中国...
日期:08-07
小米618最值得买的手机「小米手机618销量霸榜 Redmi K60、小米13杀疯了」
近日小米开始大促,在京东618手机竞速榜上,小米在本周预售品牌销量榜排名第一,Redmi K60、Redmi K60 Pro在预售单品榜排名前两位。而在天猫61狂欢手机预售榜上,Redmi K60、小米13...
日期:05-27
硬刚iPhone 15!曝华为Mate 60定档9月12日发布:与苹果同日
快科技8月21日消息,近日有多位爆料人士透露,华为秋季新品发布会将会定档9月12日,这次的主角自然是Mate60系列新旗舰。戴尔撤出中国值得注意的是,这次的时间也刚刚好与苹果发布会...
日期:08-22
2600万张矿卡何去何从?矿工玩家和厂商都头疼,没有谁是赢家「为什么会买到矿卡」
如果说一张RTX 3080的矿卡卖3000元,那么有没有玩家购买呢?我们估计玩家想必会说疯了吧?按照现在这个行情,我们已经能在4000元的价位上买到全新的RTX 3080,为什么要花3000元去买矿...
日期:09-18
浙江移动联合高通和中兴通讯完成5G-A下行三载波聚合+1024QAM全球商用首秀,单用户速率突破5.4Gbps
通信世界网消息(CWW)近日,中国移动浙江公司(以下简称浙江移动)联合高通技术公司和中兴通讯,在嘉兴外场完成5G Advanced下行多载波聚合和更高阶调制解调技术的商用验证,突破性地将单...
日期:04-01
中创新航回应“董事长2215万年薪”:实际领取585.7万_中创航空
DoNews12月3日消息,中创新航官方微信日前发布《关于公司高管薪酬的说明》称,以公司董事长薪酬为例,2022年度实际领取的税前现金薪酬为585.7万元。中新经纬报道,此前,中创新航于香...
日期:12-05
英诺赛科概念股「全球功率半导体革命的领导者英诺赛科港股递表」
近日,全球功率半导体革命的领导 者英诺赛科(苏州)科技股份有限公司InnoScience(Suzhou)TechnologyHoldingCo.,Ltd.(简称“英诺赛科”)向港交所递交招股书,拟香港主板挂牌上市。ip...
日期:06-20
谷歌 I/O开发者大会汇总:AI模型全面更新 几乎覆盖所有生成模型类型
5月15日 消息:在昨晚的Google I/O发布会上,Google宣布了一系列AI模型的更新,涵盖了从文本到视觉和音乐的多个领域:燃油车起火Gemini1.5Pro:支持200万上下文,针对翻译、编码、推...
日期:05-15
华硕usb3.1 gen1 type c接口「华硕推出USB4扩展卡:双USB4口、支持60W PD快充」
快科技1月19日消息,华硕最近推出了新款USB4扩展卡,并且提供60W快充。据悉,华硕这款USB4扩展卡用的是旗下的子公司祥硕的ASM4242主控,这是目前USB4最完善的解决方案,这款扩展卡需...
日期:01-20
李斌没听劝
技术投入上的决绝姿态,在可能加深蔚来护城河的同时,短期内也提高了蔚来的危险系数。文|《中国企业家》记者 任娅斐编辑|马吉英头图来源|中企图库为了贴合CTO的新身份,李斌特意穿了...
日期:09-24
人工智能不能代替医生「人工智能成为医生好帮手」
  近年来,人工智能变得越来越“聪明”,并开始在许多领域发挥独特的作用。例如,一家人工智能公司与英国摩尔菲尔兹眼科医院近日共同发布研究成果,称人工智能算法在诊断眼部疾病...
日期:02-11
青鸟软件投资天视网讯 涉足多媒体应用领域
  (联合电讯社/北京)--2010年对青鸟软件股份有限公司(以下简称:青鸟软件)是快速成长与发展的一年,刚刚经历了09年12月股份制改造的青鸟软件,再次迈开业务整合与创新的步伐,与北...
日期:07-29
谷歌官方推出的手机清理软件「谷歌大规模下架“垃圾清理”App:经典老应用SD Maid也被清理」
对于有着较深玩机”经验的安卓用户而言,SD Maid(SD女仆)都是一个足够实用,同样足够经典的清理类工具App。快科技8月24日消息,近日,谷歌对Google Play的垃圾清理”类App进行了一波...
日期:08-24
最新版 Chrome 和 Edge 浏览器已修复关键内存 UAF 安全漏洞_如何修复edge浏览器
  9 月 26 日消息 微软 Edge 和谷歌 Google 浏览器都已经发布了最新的稳定版本,修补了一个关键的基于 Chromium 的 Use-After-Free(UAF)漏洞,该漏洞允许攻击者执行任意代码...
日期:08-15
增粉速度超过赵露思,测评博主“出奇制胜”_赵露思粉丝官方口号
声明:本文来自于微信公众号卡思数据(ID:caasdata6),作者:卡思数据,授权转载发布。小红书10月涨粉榜已出,我们先来一起看榜:阿里云盘容量有效期华为mate50pro官方价格最新消息本月...
日期:11-08
AI日报:效果炸裂!Krea Video向所有人开放;阿里花8亿入股Kimi;Arc Search可以打电话了;腾讯智影声音大模型升级
欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。米糊跟牛奶比例是多少新...
日期:05-24
618买电视还是激光投影仪,这款激光投影仪有4重好礼等着你(同价位投影仪和激光电视)
  2021年618年中大促购物节开启了,各位网友购物车里都加满了哪些好物呢,这种大型促销活动对于选择困难症的小伙伴来说应该非常折磨,手机应该是选小米还是华为或者苹果呢,或者...
日期:08-10
华为申请的商标「华为申请“星耀手机”商标」
2 月 8 日讯:天眼查App显示, 1 月 31 日,华为技术有限公司申请注册“星耀手机”“星耀版”商标,当前商标状态为申请中。马斯克推特转发...
日期:02-08
威马m7定价「被指曾带货威马M7 车评人回应:车开过来 原价给你退钱」
快科技4月3日消息,近日,知名车评人陈震发布视频称,对于那些自称受他推荐买威马M7的车主,如果想退车的话,就把车开过来,他按照发票价给他原价退车。据陈震介绍,事件的起因是,他在2021...
日期:04-04