您的位置:首页 > 互联网

大模型的“成本瘦身”运动_模型大型

发布时间:2023-11-03 11:35:31  来源:互联网     背景:

声明:本文来自微信公众号“脑极体”(ID:unity007),作者:藏狐,,授权转载发布。

数据大、参数量大、算力大,大模型的某些能力才会“涌现”,这一点在科技圈广为流传。

做大模型的主流思想是:不要轻易说模型“不行”,如果“它还没行”,那就做得更大一点。

所以,不到一年的时间,大模型的参数规模增长100倍,如今已经突破了万亿级别,资源消耗量巨大,也带来了越来越高的存储成本、推理成本、运维成本、落地成本……以及社会成本。

目前,大模型仍处于商业化的黎明,如何回收大模型的投入,还存在很多未知数与不确定,而大模型一直在变大,成了一门极其烧钱的生意,背靠微软的Open AI,2022年就亏损了5.4亿美元左右。

不断膨胀的成本,就是一张张真金白银的账单,压在大模型企业身上的一根根“稻草”。Anthropic的首席执行官Dario Amodei最近预测,在未来两年内,他们的模型成本将达到100亿美元。

da模型

除了企业自身,社会也同样在承担大模型的隐形成本。谷歌就曾报告称,训练 PaLM 在大约两个月内耗费了大约3.4千瓦时的电量,相当于300个家庭每年的能源消耗总量。大模型高能耗给环境带来的负担和成本,最终由整个社会来买单的。

很显然,无论是商业上、环境上,比拼模型体量都是不可持续的。

一味求大的时代,已经过去了。

问题是,怎么给大模型“减负”呢?

事实上,通用大模型的头部厂商,一直都在积极地开展“成本瘦身”运动。

比如微软在Microsoft Build2020上曾公开了为GPT-3提供支持的AI supercomputing超级计算机,可以让AI模型的训练效率比其他平台高16倍,更快的训练可以降低时间成本与风险成本。

dacum模型

国产大模型也不例外。

盘古大模型早在2.0版本中,就尝试采用稀疏+稠密架构,以降低训练成本。文心一言推出一个月以后,也通过技术手段将大模型的推理性能提升近10倍,推理成本降到原来的十分之一。

避免走向臃肿沉重,成为人人都能使用的工具,大模型的“成本瘦身运动”,势在必行。具体怎么实现?本文就来谈一谈这个问题。

一口吃不成胖子

乐视蓝宝石限量手机

大模型的哪些成本可以优化,哪些成本无法削减,哪些成本还要进一步加大投入?搞清楚这些之前,首先得知道是怎么胖的。才能在保证大模型的性能表现和用户体验(健康)的前提下,合理且精准地进行“成本瘦身”。

简单来说,AI三要素——数据、算力、算法,仍然是决定大模型成本的最关键因素。

先说数据。Garbage in, garbage out,在大模型时代依然适用。

数据质量会直接决定大模型的能力。OpenAI招聘了多位博士来处理各行业的专业数据,并找了独角兽企业Scale AI等多家数据标注公司,给GPT-3进行大规模的数据集投喂。同时,算法模型会不断迭代升级,对数据量的需求会随着使用量的上升和性能优化而持续不短的时间。

中文大模型的成本高,一个主要原因就是,中文数据量和质量,与英文还存在差距,训练中文大模型,需要采集和处理的中文语言数据更多。另一方面,英语语法结构相比中文更简单,中文文本的复杂性和多样性,有的中文词汇可以表达多种含义,语境丰富,上下文理解的歧义多、难度大,也增加了中文模型的训练难度,需要额外的资源来支撑中文大模型的训练。

再说算力。

大模型的训练、运行、服务、迭代等一整个全周期,都要计算和存储资源。

dacum模型

抖音上卖的苹果准新机

大模型的训练,主打一个“暴力美学”,参数越大,训练所用的计算资源就越多。GPT-3所使用的超级计算机,包含了一万个GPU、285000个处理器内核。国内的文心4.0,也是基于飞桨平台在万卡集群训练出来的。

这还不算完。大模型在部署后开放服务,随着使用量的增加,要完成的推理任务也越来越多。24小时进行大量的“思考”和“输出”,这个推理过程,也会持续消耗计算资源,就像人脑在处理大量复杂任务时,需要消耗糖原,很容易感到饥饿,得大吃一顿来补充能量。所以,大模型的推理成本也是很高的。

175B的GPT-3部署后的推理至少需要五个A100GPU,而国内面向全社会开放服务的大模型,比如文心一言,据说推理成本也是上一代的8-10倍。

最后说说算法。

降低大模型对计算资源的巨大依赖,一个主流方案是优化模型,在性能不变的基础上,以更快的推理速度、更小的延迟、更低的资源需求来运行,相当于ROI投入产出比更高了,训练、推理环节所需要的算力资源,单位成本更低。

有多少人工,就有多少智能,没有人才不可能搞出真正能打的大模型。算法开发、测试、迭代、产品化等,都需要大量技术人才。人力成本究竟高不高,还要看大模型的商业模式是否稳健。

学历拉满的人才队伍,在研发阶段,是相当有竞争力的。问题在于,怎么挣钱呢?API调用或使用量收费,一个token不到一美分,回本盈利可能遥遥无期;付费订阅(专业版),头部大模型具有虹吸效应,大家都会选择OpenAI或BATH等大厂,自家大模型能否被用户接受并愿意付费,是未知数;给行业客户定制开发,ToB要深入了解行业,调研开发测试迭代,让年薪几十上百万的算法工程师,在工地矿山农场一待几个月,项目的毛利率估计不会太好看。

所以,一个大模型能不能成功,不仅仅是靠算法本身的能力,还要看从开发到落地的商业循环是否可持续。

管住嘴,迈开腿

如果我们把大模型的成本“瘦身”,比作一个希望减去多余赘肉的人,那么这个目标,可以拆解为两种基本途径:

一是制造“热量差”。就是管住嘴迈开腿,控制投入,减去多余的成本,加速商业化提高收入,自然就瘦了。

二是变成“易瘦体质”。充分了解大模型的机理,用新的架构来解决Transformer注意力机制的问题,拥有“怎么吃都不胖”的体质。

听起来,第二种是不是非常有诱惑力呢?

特斯拉Model Y的实车上路了

不用苦哈哈的控制成本、吸引用户、定制服务,轻轻松松躺着挣钱,还有这种好事儿?确实。

目前,所有的大语言模型都用的Transformer架构,而这种架构难以处理长文本及高分辨率图像,逻辑推理、知识归纳等就靠“大力出奇迹”,成本高昂。很多基础原理仍然不清楚,这就导致很多现存问题束手无策,比如“幻觉”的产生,推理能力有限等。

图灵奖得主 Yann LeCun就不止一次批评过大语言模型的技术范式,认为“LLM 对世界的理解非常肤浅”,他希望构建一个“世界模型”,先学习世界运作方式,而后形成一个内部模型,再通过这个内部模型来完成各种任务。除此之外,关于AGI通用智能还有许多科学家从各自的研究领域去探讨。

总结一下,当前的大语言模型,很多原理尚不清晰,技术仍在变化中。未来可能会出现其他技术范式,颠覆当前一味求大的模型,那时可能就不需要过高的成本,也就不用痛苦地“瘦身”了。

可能你已经发现了,研究底层的原理、找到一种更强大的AGI技术,这事儿虽然听起来很酷,但实在没谱,目前还没有一个清晰的时间表。而这一轮大语言模型的技术范式,在工程实践上是可行的,在产业中能work的,有提质增效的明确效果的。先用起来,把握住现在,才是科技企业的当务之急。

所以,大模型企业只能管住嘴、迈开腿,尽快控制成本、加速商业化,制造良性可持续发展的“热量差”。

制造“热量差”的四化运动

那么,究竟该怎么制造“热量差”呢?综合目前市面上的主流手段,我们将其总结为“四化运动”:数据规模化、模型压缩化、计算高效化、商业分层化。

数据规模化,是通过规模效应,来提高数据的边际效益,获得最佳性价比。规模效应主要通过三种方式来实现,一是产业集中的规模化,国家层面已经明确提出,要“加快培育数据要素市场”,涉及数据生产、采集、存储、加工、分析、服务等多个环节,产业化有助于减少大模型企业的数据成本。二是AI工具的应用,减少数据工程各个环节的人工参与,加快预训练数据的处理,为模型训练降本提效。三是反馈数据的规模化。大模型对微调数据(SFT/RLHF)的需求量和质量要求很高,一些更早向全社会开放服务的大模型,如百度文心一言、商汤“商量SenseChat”、百川智能“百川大模型”、科大讯飞“星火大模型”等,“数据飞轮”更早开始转动,有望更快一步达到边际效益最优的数据规模。

数据是有边际效益的。OpenAl 已经可以让用户来决定,是否允许其使用聊天数据进行训练,也就是说,可以不再依赖用户反馈数据了,那么数据的存储和计算成本自然就能控制住了。

模型压缩化,就是提高模型的性能,以更少的资源实现更高性能,将资源密集型的大模型,通过压缩技术,转化为更加紧凑高效的版本。类似于将脂肪转化为肌肉,肌肉的密度更大,体重(性能)不变,人却变瘦(更小)了。

目前,大模型压缩的常见手段,主要有三种:量化、剪枝、知识蒸馏。

量化,相当于抽脂,简单粗暴但是有效。模型的精度越高,所需要的存储空间就越大。但在推理时,其实并不需要捕捉复杂模型中十分微小的梯度变化,所以量化可以直接降低模型的参数精度,“抽”去一部分细节性信息,从而减少占用空间,同时也不过于降低推理能力。比如以问生图的生成式 AI 模型Stable Diffusion,此前只能在云端运行,高通AI Research使用量化技术,让模型可以在更低精度水平保持准确性,首次实现了在 Android 智能手机上部署 Stable Diffusion。量化技术,也在文心、盘古等国产大模型中有所应用。

剪枝,类似“切除手术”,直接减去一些对效果没什么影响的旁枝,比如大量冗余的结构、神经元,这些权重较小的部分删减掉,对模型效果带来的影响不大,也减少了模型的大小。当然,剪枝是一门“手艺活儿”,剪枝越精确,给模型准确率的损失就越小,压缩效果越好。

知识蒸馏,就是让大模型“蒸桑拿”,千亿模型一通蒸馏,产出若干个性能接近、结构更简的小模型,落地成本更低。挑战在于,千亿规模的模型蒸馏,也要消耗极高的计算资源,而且,从千亿蒸馏到几千万,数据量差距过大,容易影响蒸馏的效果。无损蒸馏,是各大厂商的技术赛点之一。

既然模型压缩技术,也会消耗计算资源,那么提高算力基础设施的计算效率,就变得格外重要了。

计算高效化,是大模型厂商能够以更高效益来提供模型服务的前提。

芯片和计算集群的性能,是研究和优化的重点。微软云azure专门为OpenAI打造了适用于AI计算的超级计算机。国内厂商,百度、华为都拥有自研芯片、深度学习框架,可以通过端到端优化来提升计算效率,提升大模型的训练速度和推理速度,从而降低训练时间和成本。

小米13曝光

而对于产业大模型、行业大模型等非通用大模型来说,规模效应和硬件优化技术有限,自行构建和维护基础设施的成本是非常高的,使用云服务来训练和部署服务,是成本更优的选择。

归根结底,大模型要提升商业收入,来达到优化ROI、回收成本的目的。目前,各类大模型的商业化,体现出了明显的分层化特点。

简单来说,就是不同体量、不同功能、不同方向的大模型,商业化路径也开始泾渭分明。

通用大模型,以规模效益、高价值市场,为主要目标。OpenAI的用户量巨大,发展API经济具有规模效应,前期投入可以随着业务量增长而被均摊。BATH(百度、阿里、腾讯、华为)等都有各自的云业务,积累了较为丰富的行业服务经验,尤其是金融、矿山、政务等大型政企的客户触达能力,具备较大的商业转化潜力,因此除了面向大众服务的订阅模式、商业版付费模式等,也可以开展高价值的ToB项目定制开发。ToB客户的高要求推动模型体验和效果提升,也可以服务ToC市场,通过规模化来进一步摊平成本。

行业大模型,则在主动收束产品和业务边界,围绕核心业务和功能,以更少的资源来开发专精的小模型,在投入和商业化之间取得一个很好ROI平衡。比如金融领域,度小满的“轩辕70B”融入了大量的专业金融语料,提高对金融知识的理解能力,可控性、安全性上满足金融客户的特别要求,获得了上百家金融机构申请试用。

总而言之,大模型并不是只有通用、泛化一条路,千行百业的私有化、个性化部署,会产生价格、隐私、安全等多方面的决策因素,也带来大量的细分商机。通用大模型与行业大模型、专有小模型,分层+合力打开商业化之路。和而不同,考验着产业链上每一个角色的智慧。

为了长远、可持续的服务,管住嘴、迈开腿,大模型的“成本瘦身”是必经之路。

这个过程或许痛苦,却会凝练出一条护城河,守护整个行业的健康发展。

20世纪40年代,计算机刚刚诞生的时候,人们惊叹于这座“机器怪兽”的庞大身躯,但随后开启了信息时代的飞跃。智能手机刚刚诞生时,功能机厂商曾对它极尽讽刺,没想到这种人人皆可触网的普惠联接,推起了移动互联网的繁荣。

随着大模型越来越好、成本越来越低,“人人皆可AI”,也将不再是一个遥远的梦。


返回网站首页

本文评论
英国电信法案「英国电信集团冻结CEO薪酬 维持110万英镑年薪至其离开公司」
(原标题:被冻结至退休) iphone12pro max销售量6月8日消息,当地时间周三有报道称,英国电信集团首席执行官菲利普·詹森(Philip Jans...
日期:06-08
联想昭阳和ThinkCentre台式机双双入选  成为杭州亚运会官方指定电脑
通信世界网消息(CWW)6月6日,联想举办“商用为本·2023联想商用产品发布会”,宣布联想昭阳品牌焕新升级,并发布X7、X5、X3系列新品。与此同时,ThinkCentre M大师系列旗舰商用台式机...
日期:06-07
哈啰APP日活破1500万创历史新高:新业务收入首超共享单车「哈啰出行 赚钱」
10月9日,哈啰宣布,在9月30日,哈啰APP的日活突破1500万,平台GTV也实现了超2亿的历史新高。得益于假期前夕出行需求的激增,哈啰共享两轮业务在9月30日达到全年GTV峰值。作为哈啰重...
日期:10-15
新鲜感随着时间慢慢流逝了「随着新鲜感的消失 ChatGPT流量下降了约 10%」
7月5日 消息:ChatGPT 在成为世界上访问量最大的网站后流量或许不会再增长了。换句话说,Google 不会因为 OpenAI 技术演示网站而黯然失色,而 OpenAI 技术演示网站已成为一种文...
日期:07-05
华为做起AI淘金时代“卖铲人”,天才少年透露“秘密武器”
7月14日,华为面向AI大模型时代又有大动作,发布了两款新品,为基础模型训练、行业模型训练,以及细分场景模型的训练和推理提供存储解决方案,以更好地释放AI新动能。华为数据存储产...
日期:07-16
如何穿越周期?vivo用长期主义迈入新的黄金时代
世间万物皆有周期,手机行业亦不例外,如何抵抗住周期性的波动,具备穿越周期的力量,成为所手机厂商共同面临的挑战。尤其在下行周期,对企业来说更是考验。如今的智能手机行业已经彻...
日期:01-16
AMD 和 NVIDIA 计划在2025年左右推出面向 Windows PC的 ARM 芯片
10月24日 消息:据路透社报道,图形芯片制造商 NVIDIA 和 AMD 都计划推出面向运行 Windows 操作系统的个人电脑的基于 ARM 架构的中央处理器(CPU)。这一举措可能会在2025年前后实...
日期:10-24
三大运营商联合发布白皮书「入局“百模大战”,三大运营商逐鹿AI大模型」
通信世界网消息(CWW)ChatGPT的爆火,让AI大模型在2023年成功破圈,产业链企业纷纷亮剑,3月百度发布“文心一言”,4月阿里发布“通义千问”大模型,5月科大讯飞发布“星火认知”大模型,6...
日期:07-09
win11预览版怎么取消_Win11新预览版取消本地账户选项
  5月9日消息,近日,Win11向Dev和Beta渠道推送Build 22616版更新。在新版本中,微软增加了更新后的Xbox功能栏,并恢复了之前任务栏的变化。  但一些用户发现,更新后,微软对安...
日期:03-19
小米13要涨价下周四发布,首发价或4499元起「小米3刚上市的价格」
中关村在线消息:近日有消息称,受定位升级、成本、疫情、汇率波动等因素影响,即将发布的小米新一代旗舰机小米13系列预计售价将大幅上调,上调幅度将达15-20%,小米13售价将在4500...
日期:11-26
LG显示副总裁:硅基OLED将成未来元宇宙设备主要显示面板_oled屏幕芯片
9月7日消息:据THE ELEC报道,LG Display的一位高管表示,该公司认为硅上OLED(OLEDoS)将成为未来元宇宙的设备中使用的主要显示屏。三星第一款双曲面屏LG Display副总裁Yang Joon-y...
日期:09-13
锐龙7 1700X「锐龙7000御用平台 微星4款X670主板开卖:顶配8999元」
AMD昨晚发布了锐龙7000处理器,这一代不仅升级了5nm Zen4架构,还带来了全新的AM5平台及600系芯片组,今晚高端的X670系列也上市了,微星推出了4款X670系列主板,其中最豪华的MEG X670...
日期:09-28
引领墨水屏办公新体验,掌阅科技旗下掌阅iReader推出SmartOS系统
  随着全民阅读的持续推进,数字阅读终端风靡市场。电子墨水屏产品因其区别于LCD、OLED屏幕,天然具有护眼特性,加之沉浸式的阅读体验,受到了广大学生和职场人士的追捧。在赢得...
日期:05-08
安徽省通信管理局赴阜阳市颍东区开展乡村振兴交流和走访慰问「安徽省通信管理局历任局长」
为深入开展学习贯彻习近平新时代中国特色社会主义思想主题教育,全面助力乡村振兴工作,7月12日,局党组书记、局长陈岩松带队赴阜阳市颍东区开展座谈交流,与阜阳市政府相关负责同...
日期:07-18
NASA发现超级地球或有人居住 网友:这回真能见到外星人了?_nasa宣布发现超级地球
美国宇航局(NASA)最近发现了一颗“超级地球”系外行星,名为“K2-18b”,距离地球约120光年,位于狮子座冷矮星的宜居带内。这颗行星的大小是地球的八倍多,比太阳系的海王星小。NASA...
日期:09-19
含4000条“突然加速”投诉,特斯拉被曝大规模数据泄露_特斯拉官方调查结果
据外媒报道,荷兰数据监管机构表示,特斯拉可能存在数据保护漏洞。据了解,该信息由德国勃兰登堡州的监管机构移交荷兰方面,位于勃兰登堡的数据保护中心称此次数据泄露“规模巨大”...
日期:09-26
美股周二:热门中概股涨跌不一,拼多多涨逾5%「最新拼多多美股市值」
7月26日消息,美国时间周二,美股收盘主要股指全线上涨,道指连续12个交易日上涨。投资者关注大型科技公司的财报,以及美联储当地时间周三将就基准利率做出的决定。道琼斯指数收于3...
日期:07-26
微软“愿意解决担忧” 以保住690亿美元收购动视暴雪的交易_动视暴雪持股
  微软与欧盟反垄断机构摊牌,坚称对游戏玩家来说,其以690亿美元收购动视暴雪的交易将“带来更多竞争”,但也承诺表现出解决反垄断担忧的意愿。  “我认为我们将明确表示,收...
日期:02-22
盖茨女儿回应走红TikTok:我靠的不只是出身
凤凰网科技讯 北京时间3月6日消息,亿万富翁比尔盖茨(Bill Gates)的小女儿菲比盖茨(Phoebe Gates)目前已是TikTok上的名人。她在接受采访时表示,自己在TikTok走红靠的不只是她...
日期:03-06
奔驰车主扔钱加油大姐捡钱偷抹泪引热议 当事人回应:网友愤怒素质差到家
近日,网上一个视频火了,不少奔驰车主被扣上了素质低的头衔,这到底是怎么回事?有网友爆料称,某地加油站,一奔驰车加完油后,竟然把加油的钱直接扔在地上,让女加油工自己去捡。捡完钱后...
日期:01-29