「科技点亮生活智能改变世界」

破解ChatGPT惊人耗电！DeepMind新算法训练提效13倍，能耗暴降10倍

发布时间：2024-07-07 15:55:37 来源：互联网背景：

声明:本文来自于微信公众号新智元（ID:AI_era），作者:新智元，授权转载发布。

【新智元导读】ChatGPT能耗惊人，该怎么解?谷歌DeepMind新算法JEST问世，让LLM训练的迭代次数降低13倍，计算量减少10倍，或将重塑AI未来。

ChatGPT早已成为世界耗能大户:一天用掉超50万度电，相当于1.7万个美国家庭的用电量!

华为平板录屏怎么录内部声音视频

然而，大模型对能源的吞噬，远不仅如此。

国际能源署（IEA）预测，从2022年到2026年，数据中心的用电量将翻一番。

图源备注:图片由AI生成，图片授权服务商Midjourney

随着AI计算需求的膨胀，还需要用水来冷却计算系统。研究称，微软用水量从2021年到22年飙升了34%，ChatGPT每处理5-50个提示就会消耗接近半升水。

针对这种现状，我们有更好的解决策略吗?

最近，谷歌DeepMind研究团队提出了一种加快AI训练的新方法——多模态对比学习与联合示例选择（JEST），大大减少了所需的计算资源和时间。

JEST以13倍更少的迭代次数，以及10倍更少的计算量，超越了最先进的模型!

论文地址:https://arxiv.org/pdf/2406.17711

预训练的参考模型，已经学习了什么样的数据是有优质的或有用的。然后通过模型，来引导数据选择那些精心筛选过的小型数据集。

这一发现揭示了，数据筛选水平可以作为评判Scaling Law的一个新维度。

网友激动表示，我没想到这么快就会发生。模型能够自主选择训练数据的能力是巨大的，因为它使训练变得显著更容易，你不再需要猜测什么是高质量的训练数据，你有一个能够『理解』什么样的数据对自身学习最有价值的模型。

前谷歌、苹果软件工程师称赞道，这项研究非常令人印象深刻。

从超级batch中筛选数据

无论是语言、视觉还是多模态模型，数据质量是预训练性能的重要驱动因素。比如Phi-3、Gemma2等模型的成功让我们看到了，更少、更高质量的数据有可能实现更强大的性能。

要筛选出高质量的数据，数据管道的建立就成为重要的工作。现有的方法大体可以分为两种:1）手动管理2)基于模型的数据管理，用正在训练模型的特征选择高质量数据。

前者成本高昂且难以扩展，后者则有望为多模态LLM实现Scaling Law。

然而，现有方法忽略了一个事实。

如果仅在单个数据点的层面进行筛选，就没有考虑到数据集以及batch的总体组成。毕竟，训练数据是以batch为单位，数据点之间的依赖性不可忽视。

许多计算机视觉的研究都曾表明，hard negatives（表达空间中相近但标签不同的样本）相比可被平凡解的数据簇，能提供更有效的学习信号。

那么如何让模型以batch为单位筛选数据呢?

论文提出的JEST算法正是要解决这个问题，原理很好理解:就是直接从超级batch中筛选出子batch。

技术介绍

用数学语言来描述这个问题，就是从大小为B的超级batch

查看最新行情　　讯 8月16日下午消息，港股美团跌超11%，报159.6港元每股，市值跌破1万亿港元。此前有市场消息称，腾讯计划出售美团的全部或大部分股权。对此，...