您的位置:首页 > 互联网

mod专家「32专家MoE大模型免费商用!性能全面对标Llama3,单token推理消耗仅5.28%」

发布时间:2024-05-30 21:32:28  来源:互联网     背景:

声明:本文来自于微信公众号 量子位 (ID:QbitAI),作者:克雷西 ,授权转载发布。

每个token只需要5.28%的算力,精度就能全面对标Llama3。

开源大模型,再添一位重量级选手——

来自浪 潮信息的32专家MoE模型,源2.0-M32。

不仅拥有极高的回报投入比,而且全面开放,训练代码和模型权重都可任意下载,商业使用也免费、无需授权。

那么,这到底是怎样的一款模型?

1/19算力消耗,性能对标Llama3

首先了解一下模型的基本信息,源2.0-M32模型采用MoE架构,专家数量为32,总参数量40B,激活专家数为2,激活参数量3.7B。

精度上,源2.0-M32在多个测评数据集上全面对标Llama3(70B,以下同),在MATH(数学竞赛)和ARC-C(科学推理)榜单还上超越了Llama3。

举个例子,在求解一道中文数学题目时,源2.0-M32能够用中文进行完整、准确作答,而Llama3虽然能理解中文题目,但回答时还是用了英文。

而且看一下Llama3的答案,虽然前面的过程也没什么问题,但最终得到的结果错得离谱,硬生生把一堆整数的和算出了小数点。

在实现与业界领先开源大模型性能相当的同时,在模型的训练、推理和微调过程中,源2.0-M32的资源消耗也都显著更低。

在训练阶段,使用2万亿token对源2.0-M32进行预训练,计算量只有同参数规模稠密模型的9.25%。

在推理阶段,在达到相当精度的条件下,源2.0-M32平均每个token消耗的算力为7.4GFLOPS,Llama3则需要140GFLOPS,前者的消耗仅为后者的1/19,即5.28%。

换言之,源2.0-M32每Token算力下的平均精度是Llama3的18.8倍,拥有更高的模算效率。

微调上,使用1万条平均长度为1024token的数据进行微调,Llama3-70B消耗为0.05PD(PetaFLOPs/s-Day),源2.0-M32只用0.0026PD,仅为Llama3的5.2%。

当然不得不说的是,虽然源2.0-M32的微调消耗已经降低到了Llama3的5.2%,但微调本身对于一些用户来说就是无法负担的成本。

而得益于源2.0-M32强大的少样本学习能力,让用户即使没有条件进行微调,也能快速构建大模型应用。

方向盘是veaucir是什么车

以代码生成为例,仅需很少量的样本引导,源2.0-M32在HumanEval上获得的精度就能从74.4提升到78.1,增幅达到了4.97%。

浪 潮信息提供了预训练、微调和推理服务脚本,开发人员可以高效完成部署。

模型部署可端可云,可以在自有的云服务上部署,也可以在浪 潮信息推出的企业大模型开发平台EPAI中快速构建,还可以通过浪 潮信息开源的本地大模型对话工具YuanChat,在PC端完成快速部署。

而且源2.0-M32模型激活参数量仅3.7B,算力需求只有2B模型(单专家)的1点多倍,用笔记本就能带动。

总之,浪 潮信息始终追求更高效的智能涌现——本次发布“源2.0-M32”大模型,就是希望资源有限的条件下,实现能耗更低、推理和训练效果更优的大模型开发。

那么,浪 潮信息是如何实现用更少的算力开销,对标行业领先模型的呢?

算法、算力、数据的全面创新

自浪 潮信息涉足AI领域以来,一直将“算法、算力、数据”视为AI应用的“三驾马车”。

实际上,整个“源”系列大模型的研发过程亦是如此,所有的相关研究,都是围绕着这三个维度展开的。

在算法上,源2.0-M32选择了MoE架构,解决了稠密模型训练成本过高、数据和算力不足的问题。

从Llama1(65B)、Llama2(70B)到Llama3(70B)的迭代过程可以看出,三代模型的参数量接近,但随着训练Token数从1.4T增加到了15T,模型表现也随之显著提升。

天玑720单核跑分

△数据来自Llama1与Llama2的论文

大模型的扩展率揭示出:增大模型的参数量与增大训练的token数对模型能力提升的作用类似,如果按照Llama3的训练数据量(15T tokens)外推,500B参数的模型若想充分的训练,所需的高质量文本token数高达107T,已经远远超过了当前业界已知的数据量。

退一步讲,即使真的有这么多数据,训练过程所需的算力投入同样无法承受。

按照计算,如果用107T训练token训一个500B参数规模的Dense模型,需要的算力是321000Z(10^21)Flops。

即使在2万颗加速卡的集群上,训练效率按40%来算(实际还不一定能达到),也需要耗时464天,单是电费就要花费约3亿元。

相比之下,MoE模型的一个显著优势就是,能够在远少于稠密模型所需的计算资源下,进行有效的预训练。

同时,源2.0-M32没有采用Mixtral等MoE模型中更常见的8专家结构,而是将专家数量设定为了32,运行时只激活两个专家。

这一参数的选择,是研发团队进行了大量的实验调优之后确定的。

浪 潮信息人工智能首席科学家吴韶华介绍说,模算效率是浪 潮信息设计自己的大模型时的核心出发点,在提升模型能力的同时,尽可能降低算力开销。

业界中像Mixtral这样的模型,获得更高精度的方式是固定专家数量,增加单个专家的参数量,但源2.0-M32则反其道而行之。

吴韶华介绍,在研发团队的实验中,随着专家数量从8个专家增加到32个专家,在模型精度上取得了非常不错的回报。

但即使总的专家数量增加到了32个,激活的专家依然只有两个。在这种情况下,激活参数量不变,算力开销不变。

至于源2.0-M32中的单个专家,则是选用了源2.0-2B模型,这样做的考量是控制单个专家的参数量不至于过大,以便在企业场景应用中可以有更好的模算效率。

除了在专家数量的设置上另辟蹊径,团队也对源2.0-M32的门控网络进行了全新设计,采用了独创的Attention Router门控网络,相比传统的门控网络获得了精度提升。

当前流行的MoE结构大都采用简单的调度策略,其本质是对token与代表每个专家的特征向量求点积,随后挑选点积结果最大的几个专家。

这种方式只考虑了token和专家的关系,却忽略了专家与专家之间的相关性,但实际过程中往往需要多个专家协同参与计算,如果忽视专家之间相关性,无疑会降低模型的精度。

而源2.0-M32大模型中的Attention Router,就创造了一种专家间协同性的度量方法,解决了传统的门控机制中专家关联性缺失的问题。

具体来说,对于每一个专家,研发团队都构建了3个向量,并利用类似Attention的机制来构建专家之间的关系。最终选择的专家不仅与Token匹配度高,两个专家的协同效果也更好。

此外,源2.0-M32也沿用了源2.0系列中首创的局部注意力过滤增强(LFA)机制,和经典的Llama结构相比,模型在几百亿token数据的训练之后,在100亿token的测试集上做测试,会有3.5%的精度提升。

在数据层面,源2.0-M32一共使用2万亿token进行训练,相比之前的2.0版本大幅提升。

整个训练过程也非常稳定,没有出现数值不稳定或异常的中断的情况,最终训练损失为1.22。

专家模型是什么

数据类型上看,源2.0-M32这个模型的2万亿token中,差不多有一半的数据都是代码,包含中文代码和英文代码。

mos专家级

同时,团队也引入了互联网数据和各类学科数据等类型,来补充数据的多样性。

另外,研发团队还通过源2.0合成数据的工具,获得并增加了超过1000万条的合成数据,重点是针对于数学和中文代码。

因为互联网上中文数学的语料实在太少,研发团队曾经清洗了10PB左右的互联网数据,但实际只得到了几十GB的中文数学数据。

所以,这片空白需要通过数据合成来进行填补,这也是研发团队持续做的工作。

在算力层面,源2.0-M32延续了源2.0提出的分布式训练方法,综合运用流水线并行+数据并行的策略,显著降低了大模型对芯片间P2P带宽的需求,为硬件差异较大训练环境提供了一种高性能的训练方法。

针对MoE模型的稀疏专家计算,采用合并矩阵乘法的方法,模算效率得到大幅提升。

将开源进行到底

了解了模型背后的技术细节,浪 潮信息又为什么能够打造出如此高效的大模型技术和产品呢?

主观上,浪 潮信息始终坚持在算法、架构等层面进行创新,对于这样做的原因,吴韶华这样介绍:

如果想提升大模型的能力,沿用当前的结构当然是一个比较好的路径。

但我们始终坚持:要从算法层面和模型架构层面做探索、创新,这样才能更快速的实现模型能力的提升。

客观上,也至少包括以下三点原因。

一是从AI时代开始之前,浪 潮信息就是专业的算力供应商,在算力侧拥有大量的生态伙伴,对不同类型算力特点有深入的研究,能够更高效地对算力进行利用。

实际上,自从2021年的源1.0开始,浪 潮信息的一系列模型就都实现了比业界更高的训练效率。

同时期的GPT-3,算力的利用效率只有21.3%,而源1.0效率则达到了44.8%,达到了业界领先水平。

二是在浪 潮信息内部,也有非常多的场景和团队,包括客服、软件研发、生产制造、运维等等,都有很多实际的应用案例,或者实际需要模型去做规模化转型的场景。

这些场景为源大模型的使用、迭代提供了天然的试验场,同时从中能够积累更多的经验、更多的能力,从而满足更多的需求。

三是始终坚持开源开放,同样对模型能力的进化非常有帮助。

源系列模型的开源从1.0版本就已开始,从源1.0到源2.0再到今天的源2.0-M32,始终在坚持做开源,也已赋能了很多开发者。

这些开发者基于源1.0做了很有趣的应用探索,给了浪 潮信息很好的反馈,指明了在模型能力上和开发者实际的应用需求上,到底应该关注在哪些层面。

吴韶华表示,从源1.0开源至今,浪 潮信息一直在开源活动中持续受益,后续也会很坚定的继续开源。

总之,从创新研发到开源开放,浪 潮信息将坚持致力于研发基础大模型,为企业用户降低大模型使用门槛,加速推进产业智能化升级。

GitHub地址:

https://github.com/IEIT-Yuan/Yuan2.0-M32

论文地址:

https://arxiv.org/abs/2405.17976

Huggingface地址:

https://huggingface.co/IEITYuan/Yuan2-M32-hf

ModelScope地址:

https://modelscope.cn/models/YuanLLM/Yuan2-M32-hf/summary

Wisemodel地址:

https://www.wisemodel.cn/models/IEIT-Yuan/Yuan2-M32-hf

mos专家级

—完—


返回网站首页

本文评论
bmw mini coopers「宝马Mini展台被曝区别对待国人 涉事冰淇淋品牌Luneurs回应」
日前,上海车展期间,宝马MINI品牌却被网友曝出区别对待国人”,引起网友关注热议。网友上传视频显示,在宝马MINI展台上,有免费领取冰淇淋的工作台,一位国人小姐姐要来领冰淇淋,结果被...
日期:04-20
乐视要做下一个新东方?不依赖版权和收租,要推新机还考虑带货直播
  记者/秦艺逍  新东方直播爆红之后,乐视也想进军直播领域了。  “员工可以为自己公司代言,乐视为什么不可以?”9月8日,乐视负责人品牌夏晓艳在媒体沟通会上表示,乐视的员...
日期:09-10
真我GT Neo5 SE跑分过百万 骁龙7芯片加持
前几天高通正式发布了二代骁龙7 平台,realme真我宣布真我GT Neo5 SE率先搭载这一平台,而目前跑分已经公布:成功超过100万分。真我GT Neo5 SE手机内存16GB,闪存容量则是1TB,这是同...
日期:03-24
深圳千万豪宅楼盘再次“日光” 237套房源全部卖完_深圳豪宅2021
最近,深圳的网红豪宅盘海德园A区开始入市,并计划推售237套住宅。最终,共有664批购房者完成了200万元/套的意向保证金的冻结,顺利入围抽签选房的环节。6月12日,海德园正式进行了选...
日期:06-13
苹果如何语音唤醒siri「苹果考虑改变iPhone语音唤醒指令:“Hey Siri”没了 直接叫Siri」
很多iPhone用户现在已经习惯了语音操作,每天都要呼叫Hey Siri”很多次,不过苹果现在考虑改变这个语音唤醒的指令,Hey Siri”没了,直接变成Siri。这个消息是著名苹果爆料记者马克...
日期:11-08
超燃!支付宝技术双11纪录片《一心一役》全球独家首发
  和过去10年一样,2019年天猫双11又创造了一个全新的纪录。   这个数字背后,是数代支付宝工程师们殚精竭虑、不断突破技术难关。   对于技术人员来说,维持双11全天2...
日期:09-27
win11的ui_功能UI有改进!Win11全新搜索界面展示
  微软近日向用户推送管理Win11 2022 4月份更新,新的系统搜索也随之推送给了用户。   Win11的全新搜索界面带有一个名为“搜索亮点”的功能,旨在突出新鲜内容,带有插图和...
日期:07-18
得物app_得物(毒)APP:成为潮人,身体和心灵一起跟上节奏
  潮流最早源于英文“TREND”,直译为“趋势”。在90年代初,由日本时尚前沿人群率先翻译为潮流,后传入香港和台湾,2000年前后,国内出现首批潮流爱好者,称为“潮人”。潮人...
日期:11-23
卖鞋垫视频「让中产着迷、靠卖鞋垫年入96亿,它要IPO了」
声明:本文来自于微信公众号 天下网商(ID:txws_txws),作者:天下网商,授权转载发布。iphone15全系a17芯片一年卖出近3000万双的“丑鞋”要IPO了。9月,时尚圈最大的消息之一,莫过于250岁...
日期:10-04
饿了么和抖音达成合作 双方今日将正式官宣(和抖音平台合作合同)
讯 8月19日下午消息,获悉,饿了么和抖音达成合作,双方今日将正式官宣。云享汇聚多少钱一年手机万能遥控有什么用国美液晶电视中兴事件打醒马化腾...
日期:08-21
周冠宇f1哪个车队「首次主场作战!周冠宇2024 F1中国站冲刺赛第9」
快科技4月20日消息,在刚刚结束的2024 F1中国大奖赛冲刺赛上,主场作战的车手周冠宇在冲刺赛中获得第九。这是本赛季的第一场冲刺赛,最终维斯塔潘轻松拿到冠军,领先优势超过13秒,汉...
日期:04-20
美媒:Pro级产品将成苹果秋季发布会最耀眼明星「mac pro 发布会」
9月5日消息,苹果即将于美国当地时间9月7日举办2022年秋季新品发布会,预计其将发布旗舰级智能手机、智能手表以及耳机等新品。不过,苹果资深分析师马克·古尔曼(Mark Gurman)认为,...
日期:11-09
分析师:若微软成功收购动视暴雪,将推动Xbox Game Pass订阅用户达到1亿
IT之家8月15日消息,游戏行业分析师MichaelPachter近期就微软Xbox、动视暴雪的未决交易发表了看法,据估计,这家Windows和Xbox制造商将花费690亿美元收购动视暴雪。虽然这笔钱多...
日期:08-16
iPhone 15 512GB渠道价暴跌:比苹果官网iPhone 14都便宜
快科技10月11日消息,测评小铺晒出了iPhone 15国行第三方渠道报价,512GB顶配版黑色价格是7880元,比首发价便宜1119元。微软band2手环app直播带货是一种新模式这个价格甚至比上一...
日期:10-12
中国移动魏晨光:终端未来将走向以人为中心的通信智能体时代_中国移动魏斌
通信世界网消息(CWW)在第11届中国网络视听大会期间,中国移动研究院副院长魏晨光应邀发表题为“6G重塑世界-未来业务发展趋势探讨”的主题演讲。她认为,终端经历以通信为中心的Fe...
日期:04-02
投人工智能的基金「研究显示人工智能在挑选私募股权基金方面表现优于机构投资者」
7月5日消息:人工智能可以比许多机构投资者更好地挑选出表现优异的私募股权(PE)基金,这是来自牛津大学的研究所表明的。研究人员通过阅读 400 份募资说明书,并考虑到通常被投资者...
日期:07-05
“三云”聚汇,由世纪互联运营的Microsoft Dynamics 365即将正式商用(microsoft dynamics 365功能)
  三云聚汇   作为率先在中国市场商业运营的国际公有云,由世纪互联运营的Microsoft Azure及Office 365云办公服务在华已经商用五周年了。作为微软智能云的第三项核心服...
日期:12-08
小米首款汽车「小米SU7北京车展抢先看:雷军晒彩排现场」
快科技4月25日消息,北京车展定于4月25日至5月4日,其中,4月25日和26日被设为媒体新闻日,4月27日和28日对专业观众开放;而4月29日至5月4日则向公众开放。小米汽车将于4月25日(即今天...
日期:04-25
苹果首款头戴装置或将延至 6 月量产:由立讯代工组装「苹果首款头戴式耳机将发布」
4月10日消息:据 DIGITIMES 消息,供应链指出,苹果首款头戴装置,传将延到 6 月量产。此外,原本由和硕打样的机型,确定将转由立讯代工组装。根据业界分析,在这种情况下,对于和硕来说,立...
日期:04-10
去年12月收购法国Datakalab公司,苹果布局本地AI开启“买买买”模式_法国but收购conforama
4 月 23 日消息,苹果公司继续通过“买买买”扩充其 AI 领域实力,近日披露文件显示已收购总部位于巴黎的人工智能初创公司 Datakalab,以进一步推进本地 AI 能力。消息称这笔收购...
日期:04-23