声明:本文来自于微信公众号 新智元(ID:AI_era),作者:新智元,授权转载发布。
【新智元导读】ChatGPT能耗惊人,该怎么解?谷歌DeepMind新算法JEST问世,让LLM训练的迭代次数降低13倍,计算量减少10倍,或将重塑AI未来。
ChatGPT早已成为世界耗能大户:一天用掉超50万度电,相当于1.7万个美国家庭的用电量!
华为平板录屏怎么录内部声音视频
然而,大模型对能源的吞噬,远不仅如此。
国际能源署(IEA)预测,从2022年到2026年,数据中心的用电量将翻一番。
图源备注:图片由AI生成,图片授权服务商Midjourney
5g 中兴通讯
随着AI计算需求的膨胀,还需要用水来冷却计算系统。研究称,微软用水量从2021年到22年飙升了34%,ChatGPT每处理5-50个提示就会消耗接近半升水。
针对这种现状,我们有更好的解决策略吗?
最近,谷歌DeepMind研究团队提出了一种加快AI训练的新方法——多模态对比学习与联合示例选择(JEST),大大减少了所需的计算资源和时间。
JEST以13倍更少的迭代次数,以及10倍更少的计算量,超越了最先进的模型!
论文地址:https://arxiv.org/pdf/2406.17711
预训练的参考模型,已经学习了什么样的数据是有优质的或有用的。然后通过模型,来引导数据选择那些精心筛选过的小型数据集。
这一发现揭示了,数据筛选水平可以作为评判Scaling Law的一个新维度。
网友激动表示,我没想到这么快就会发生。模型能够自主选择训练数据的能力是巨大的,因为它使训练变得显著更容易,你不再需要猜测什么是高质量的训练数据,你有一个能够『理解』什么样的数据对自身学习最有价值的模型。
前谷歌、苹果软件工程师称赞道,这项研究非常令人印象深刻。
苹果公司授权经销商
抖音兴趣电商概念
从超级batch中筛选数据
无论是语言、视觉还是多模态模型,数据质量是预训练性能的重要驱动因素。比如Phi-3、Gemma2等模型的成功让我们看到了,更少、更高质量的数据有可能实现更强大的性能。
要筛选出高质量的数据,数据管道的建立就成为重要的工作。现有的方法大体可以分为两种:1)手动管理2)基于模型的数据管理,用正在训练模型的特征选择高质量数据。
前者成本高昂且难以扩展,后者则有望为多模态LLM实现Scaling Law。
然而,现有方法忽略了一个事实。
如果仅在单个数据点的层面进行筛选,就没有考虑到数据集以及batch的总体组成。毕竟,训练数据是以batch为单位,数据点之间的依赖性不可忽视。
许多计算机视觉的研究都曾表明,hard negatives(表达空间中相近但标签不同的样本)相比可被平凡解的数据簇,能提供更有效的学习信号。
那么如何让模型以batch为单位筛选数据呢?
论文提出的JEST算法正是要解决这个问题,原理很好理解:就是直接从超级batch中筛选出子batch。
技术介绍
用数学语言来描述这个问题,就是从大小为B的超级batch