您的位置:首页 > 互联网

破解ChatGPT惊人耗电!DeepMind新算法训练提效13倍,能耗暴降10倍

发布时间:2024-07-07 15:55:37  来源:互联网     背景:

声明:本文来自于微信公众号 新智元(ID:AI_era),作者:新智元,授权转载发布。

【新智元导读】ChatGPT能耗惊人,该怎么解?谷歌DeepMind新算法JEST问世,让LLM训练的迭代次数降低13倍,计算量减少10倍,或将重塑AI未来。

ChatGPT早已成为世界耗能大户:一天用掉超50万度电,相当于1.7万个美国家庭的用电量!

华为平板录屏怎么录内部声音视频

然而,大模型对能源的吞噬,远不仅如此。

国际能源署(IEA)预测,从2022年到2026年,数据中心的用电量将翻一番。

图源备注:图片由AI生成,图片授权服务商Midjourney

5g 中兴通讯

随着AI计算需求的膨胀,还需要用水来冷却计算系统。研究称,微软用水量从2021年到22年飙升了34%,ChatGPT每处理5-50个提示就会消耗接近半升水。

针对这种现状,我们有更好的解决策略吗?

最近,谷歌DeepMind研究团队提出了一种加快AI训练的新方法——多模态对比学习与联合示例选择(JEST),大大减少了所需的计算资源和时间。

JEST以13倍更少的迭代次数,以及10倍更少的计算量,超越了最先进的模型!

论文地址:https://arxiv.org/pdf/2406.17711

预训练的参考模型,已经学习了什么样的数据是有优质的或有用的。然后通过模型,来引导数据选择那些精心筛选过的小型数据集。

这一发现揭示了,数据筛选水平可以作为评判Scaling Law的一个新维度。

网友激动表示,我没想到这么快就会发生。模型能够自主选择训练数据的能力是巨大的,因为它使训练变得显著更容易,你不再需要猜测什么是高质量的训练数据,你有一个能够『理解』什么样的数据对自身学习最有价值的模型。

前谷歌、苹果软件工程师称赞道,这项研究非常令人印象深刻。

苹果公司授权经销商

抖音兴趣电商概念

从超级batch中筛选数据

无论是语言、视觉还是多模态模型,数据质量是预训练性能的重要驱动因素。比如Phi-3、Gemma2等模型的成功让我们看到了,更少、更高质量的数据有可能实现更强大的性能。

要筛选出高质量的数据,数据管道的建立就成为重要的工作。现有的方法大体可以分为两种:1)手动管理2)基于模型的数据管理,用正在训练模型的特征选择高质量数据。

前者成本高昂且难以扩展,后者则有望为多模态LLM实现Scaling Law。

然而,现有方法忽略了一个事实。

如果仅在单个数据点的层面进行筛选,就没有考虑到数据集以及batch的总体组成。毕竟,训练数据是以batch为单位,数据点之间的依赖性不可忽视。

许多计算机视觉的研究都曾表明,hard negatives(表达空间中相近但标签不同的样本)相比可被平凡解的数据簇,能提供更有效的学习信号。

那么如何让模型以batch为单位筛选数据呢?

论文提出的JEST算法正是要解决这个问题,原理很好理解:就是直接从超级batch中筛选出子batch。

技术介绍

用数学语言来描述这个问题,就是从大小为B的超级batch


返回网站首页

本文评论
美团香港股价_港股美团跌超11%,市值跌破1万亿港元
查看最新行情   讯 8月16日下午消息,港股美团跌超11%,报159.6港元每股,市值跌破1万亿港元。此前有市场消息称,腾讯计划出售美团的全部或大部分股权。对此,...
日期:08-19
mate30pro人脸识别「迎来“戴口罩识别”功能 华为 Mate 50 Pro正测试鸿蒙新版本」
据消息显示,华为 Mate 50 Pro正在测试鸿蒙 HarmonyOS 3.0.0.150版本,该版本将带来“戴口罩识别”功能。从图中可以看到,当Mate 50 Pro用户开启“戴口罩识别”后,设备将通过眼部...
日期:10-05
11月17日!华为MateBook E官宣_华为matebook16发布会
  ITBEAR科技资讯11月12日消息,虽然华为P系列、Mate系列新品手机因缺少芯片而延迟发布时间,却依旧抵挡不住华为方面研发新产品的激情。微博官方账号@华为终端公司 带来最新...
日期:08-08
AMD苏姿丰确认“发烧级”新卡马上发!但跟你想的不一样「amd总裁苏姿丰」
NVIDIA RTX 40系列已经布局完毕,入门级的RTX 4050”暂无计划,发烧级的RTX 4090 Ti”已被取消。原因无他,没竞争。AMD RX 7000系列这边,目前只有RX 7900 XTX/XT/GRE、RX 7600四个...
日期:08-03
吃淀粉肠好吗「商家直播2小时连吃10根淀粉肠:自证没有骨泥」
央视315晚会过后,原本遍布街头巷尾的淀粉肠成为众矢之的,其背后的真实配料令人震惊。据央广网记者深入调查,河南某淀粉肠生产厂家的工作人员透露,其产品中肉的含量极低,主要以鸡...
日期:03-18
快手电商家电家装节收官:共促成GMV超5.5亿 同比去年增长30%_快手电商gmv
10月12日 消息:9月26日起,快手开启以“买家电家装,来快手逛呀”为主题的家电家装节大促活动。该活动随着国庆假期结束圆满收官,此次家电家装节共促成GMV超5.5亿,同比去年增长了3...
日期:10-13
顶象:疫情下的“宅经济”,五大行业迎来线上业务拐点
  “疫情”之下,大家都宅在家里不出门,在“宅着就是做贡献”的日子里,线上购物、京东到家、在线医疗、在线办公、在线教育、游戏娱乐等各类线上业务催生“宅经济”。   20...
日期:09-18
三星i7500u「三星I750」
是一款2009年发布的安卓智能手机,采用了三星自主研发的第一款安卓操作系统。这款手机搭载了高通MSM7200A处理器,内存为128MB,存储空间为8GB,支持microSD卡扩展存储。还搭载了一...
日期:05-31
大众点评“跨年”等关键词的搜索量较上周增长171%「大众点评关键词推广」
2022年末,社会流动带来的消费暖意正在逐渐释放。截至12月26日,大众点评网友主动搜索“跨年”等关键词的搜索量较上周增长171%,其中,北京、成都、上海、广州、深圳、武汉、重庆等...
日期:12-27
Riskified:游戏厂商从“内卷”到“外卷”,用支付风控提升出海续航力
游戏出海正当时,细数前行道路上的支付“绊脚石”《 2022 年中国游戏产业报告》显示, 2022 年中国游戏市场实际销售收入同比下降10.33%;游戏用户规模同比下降0.33%。在流量红利...
日期:07-17
互换特产玩出套路,年轻人的“搭子”游戏何时终结?_小说搭子
声明:本文来自于微信公众号锌刻度(ID:znkedu),作者:星 晚,授权转载发布。“搭子”社交正成为年轻人时下的一种社交新风尚,搭子之间通过共同的兴趣和价值观念,主打着一个价值共享和...
日期:10-28
且远高于其他厂商 宁德时代动力电池使用量连续7年位居全球第一
2 月 24 日消息,电池和能源研究公司 SNE Research 发布了 2023 年全球动力电池报告。数据显示 2023 年 全球动力电池总使用量约为 705.5GWh 同比增长 38.6%。王凯和王鸥合作...
日期:02-24
马斯克向媒体哭诉「火药味渐浓:马斯克将接受Twitter律师询问,他是否会出言不逊?」
  讯 北京时间9月27日早间消息,据报道,本周,Twitter律师将会对亿万富豪埃隆·马斯克(Elon Musk)进行询问,了解他为何在7月突然宣布放弃对Twitter440亿美元的收购。  Twitter的...
日期:09-28
问题创业的案例「这26个问题,都会导致你创业失败!」
声明:本文来自于微信公众号 十里村(ID:shilipxl),作者:村长住在十里村,授权转载发布。百度医疗平台各位村民好,我是村长很多人总以为创业很简单,别人做一下就成功了。许多员工也以为...
日期:12-16
亚马逊宣布下月举办新会员促销活动 首次一年举办两场大促_亚马逊感恩节促销活动
  讯 北京时间10月27日早间消息,据报道,亚马逊将于下月举办另一场类似Prime Day会员日的促销活动。这是亚马逊首次在一年内举办两场此类活动。  亚马逊周一表示,下场活动将...
日期:09-27
xbox series x手柄说明「又一款名为"Lunar Shift"的Xbox Series X/S手柄已被泄露出来」
又一款新的Xbox X/S系列手柄设计似乎已经泄露,Twitter用户Espía de Ofertas在亚马逊上发现了"Lunar Shift"手柄,该手柄似乎自带银色效果,包装上将其描述为"超现实的光泽"。如...
日期:10-03
iphone1200万像素和华为4800万「底比iPhone 13 Pro大 华为Mate 50系列用5000万像素大底主摄」
9月3日消息,博主数码闲聊站暗示,华为Mate 50系列主摄是5000万像素,型号可能是索尼IMX766。据悉,Mate 50系列主摄传感器尺寸是1/1.56英寸,单位像素面积为1.0微米,支持像素四合一,可...
日期:09-05
纽约邮报封杀用户通过iPad版Safari浏览器直接登录该报纸网站
  北京时间6月20日早间消息,《纽约邮报》已经封杀了用户通过iPad版Safari浏览器直接登录该报纸网站,以推动应用的销售。   业内人士认为,《纽约邮报》采用这种方式来推广...
日期:07-30
百度智能云与青岛广电合作 推动大模型在AIGC创作场景探索_百度智能云总裁
8月15日 消息:近日,青岛市广播电视台与百度智能云联合打造的“青岛广电智慧云平台”正式上线。青岛广电智慧云平台基于百度智能云云原生架构打造,可实现全台媒体内容、数据、...
日期:08-15
华为商用电脑「商用电脑」
是一种专为商业活动所设计的电脑,主要用于办公、商务、金融及科研等领域。相较于家用电脑,具有更高的性能、更强的稳定性和更可靠的安全性。下面我们从以下几个方面来介绍的特...
日期:06-01