您的位置:首页 > 互联网

AI模型“大即好”的观点已经走不通了

发布时间:2023-06-26 20:40:09  来源:互联网     背景:

声明:本文来自于微信公众号CSDN(ID:CSDNnews)),作者 |The Economist 译者| 明明如月,授权转载发布。

如果 AI 想要发展更好,将不得不用更少的资源实现更强大的功能。

机器人手臂打字

谈起“大型语言模型”(LLMs),如 OpenAI 的 GPT (Generative Pre-trained Transformer)——驱动美国流行聊天机器人的核心力量——名字已经说明了一切。这种现代 AI 系统由庞大的人工神经网络驱动,这些网络采用一种宽泛的方式模拟着生物大脑的工作机制。2020年发布的 GPT-3就是一款大语言模型 “巨兽”,拥有1750亿个“参数”,这是神经元之间模拟连接的名称。GPT-3通过在几周内使用数千个擅长 AI 计算的 GPU 处理数万亿字的文本进行训练,耗资预计超过460万美元。

然而,现代 AI 研究的共识是:“大即好,越大越好”。因此,模型的规模增长速度一直处于飞速发展之中。GPT-4于三月份发布,据估计其拥有大约1万亿个参数——比前一代增加了近六倍。OpenAI 的 CEO Sam Altman 估计其开发成本超过1亿美元。而整个行业也呈现出同样的趋势。研究公司 Epoch AI 在2022年预测,训练顶级模型所需的计算能力每六到十个月就会翻倍(见下图)。

图片

AI 模型参数规模不断增大会带来一些问题。如果 Epoch AI 的预测准确,训练成本每十个月翻一倍,那么到2026年,训练成本可能超过十亿美元——这还只是在假设数据不会先被耗尽的前提下。2022年10月的一项分析预测,用于训练的高质量文本可能在相同的时间内用尽。此外,即使模型训练完成,运行大型模型的实际成本也可能十分昂贵。

今年早些时候,摩根士丹利银行估算,如果一半的 Google 搜索由目前的 GPT 类型程序处理,这可能会让公司每年多支出60亿美元。随着模型规模的增长,这个数字可能会继续上升。

因此,许多人认为 AI 模型“大即好”的观点已经走不通了。如果要继续改善 AI 模型(更别提实现那些更宏大的 AI梦想了),开发者们需要找出如何在资源有限的情况下获得更好的性能。就像 Altman 先生在今年四月回顾大型 AI 的历史时所说:“我认为我们已经到了一个时代的尽头。”

华为harmonyos有必要升级吗

量化紧缩

反之,研究人员开始关注如何提高模型的效率,而不只是追求规模。一种方式是通过降低参数数量但使用更多数据来训练模型以达到权衡。2022年,Google 的 DeepMind 部门在一个包含1.4万亿字的语料库上训练了一个拥有700亿参数的 LLM,名为 Chinchilla。尽管参数少于GPT-3的1750亿,训练数据只有3000亿字,但这个模型的表现超过了GPT-3。为一个较小的LLM提供更多的数据意味着它需要更长的时间来训练,但结果是一个更小、更快、更便宜的模型。

摩托罗拉 一亿像素

另一种选择是让降低浮点数的精度。减少模型中每个数字的精确位数,即四舍五入,可以大幅减少硬件需求。奥地利科学技术研究所的研究人员在三月份证明,四舍五入可以大幅度减少类似 GPT-3模型的内存消耗,使得模型可以在一台高端 GPU 上运行,而不是五台,且“精度下降可以忽略不计”。

一些用户会对通用 LLM 进行微调,专注于生成法律文件或检测假新闻等特定任务。虽然这不像首次训练 LLM 那样复杂,但仍可能代价昂贵且耗时长。微调 Meta(Facebook 的母公司)开源的拥有650亿参数的 LLaMA 模型,需要多个 GPU,花费的时间从几个小时到几天不等。

华盛顿大学的研究人员发明了一种更高效的方法,可以在一天内在单个 GPU 上从 LLaMA 创建一个新模型 Guanaco,性能损失微乎其微。其中一部分技巧就是采用了类似奥地利研究人员的四舍五入技术。但他们还使用了一种叫做 “低秩自适应(Low-Rank Adaptation ,LoRA)” 的技术,该技术涉及固定模型的现有参数,然后在其中添加一组新的、较小的参数。微调是通过仅改变这些新变量来完成的。这使得事情简化到即使是计算能力相对较弱的计算机,如智能手机,也可以胜任这项任务。如果能让 LLM 在用户设备上运行,而非目前的巨型数据中心,那可能带来更大的个性化和更好的隐私保护。

小米新品机器人

同时,一个 Google 的团队为那些可以使用较小模型的人提供了新的选择。这种方法专注于从大型通用模型中挖掘特定的知识,并将其转化为一个更小且专业化的模型。大模型充当教师,小模型充当学生。研究人员让教师回答问题,并展示其推理过程。教师模型(大模型)的答案和推理都用于训练学生模型(小模型)。该团队成功地训练了一个只有77亿参数的学生模型(小模型),在特定的推理任务上超过了其有5400亿参数的教师模型(大模型)。

另一种方法是改变模型构建方式,而不是关注模型在做什么。大部分 AI 模型都是采用 Python 语言开发的。它设计得易于使用,让编程人员无需考虑程序在运行时如何操作芯片。屏蔽这些细节的代价是代码运行得更慢。更多地关注这些实现细节可以带来巨大的收益。正如开源 AI 公司 Hugging Face 的首席科学官Thomas Wolf 所说,这是“目前人工智能领域研究的一个重要方面”。

优化代码

例如,在2022年,斯坦福大学的研究人员发布了一种改进版的“注意力算法”,该算法允许大语言模型(LLM)学习词语和概念之间的联系。这个想法是修改代码以考虑正在运行它的芯片上发生的情况,特别是追踪何时需要检索或储存特定信息。他们的算法成功将 GPT-2(一种早期的大型语言模型)的训练速度提高了三倍,还增强了它处理更长查询的能力。

更简洁的代码也可以通过更好的工具来实现。今年早些时候,Meta 发布了 AI 编程框架 PyTorch 的新版本。通过让程序员更多地思考如何在实际芯片上组织计算,它可以通过添加一行代码来使模型的训练速度提高一倍。由Apple 和 Google 的前工程师创建的初创公司 Modular,上个月发布了一种名为 Mojo 的新的专注于 AI 的编程语言,它基于 Python。Mojo 让程序员可以控制过去被屏蔽的所有细节,这在某些情况下使用 Mojo 编写的代码运行速度比用 Python 编写的等价代码块数千倍。

最后一个选择是改进运行代码的芯片。虽然最初是用来处理现代视频游戏中的复杂图形, GPU 意外地在运行AI模型上表现良好。Meta 的一位硬件研究员表示,对于 "推理"(即,模型训练完成后的实际运行),GPU 的设计并不完美。因此,一些公司正在设计自己的更专业的硬件。Google 已经在其内部的 “TPU” 芯片上运行了大部分 AI 项目。Meta 及其 MTIA 芯片,以及 Amazon 及其 Inferentia 芯片,都在做类似尝试。

有时候只需要一些简单的改变(比如对数字四舍五入或切换编程语言)就可以获得巨大的性能提升,这可能让人感到惊讶。但这反映了大语言模型(LLM)的发展速度之快。多年来,大语言模型主要是作为研究项目,关注点主要是让它们能够正常运行和产生有效结果,而不是过于关注其设计的优雅性。只是最近,它们才变成了商业化、面向大众市场的产品。大多数专家都认为,还有很大的改进空间。正如斯坦福大学的计算机科学家 Chris Manning 所说:“没有任何理由相信目前使用的神经架构(指代当前的神经网络结构)最优的,不排除未来会出现更先进的架构”。


返回网站首页

本文评论
长沙女子霸占车位事件当事人:局面已失控 先缓一缓「女子控诉误占车位被豪车围堵」
近日,长沙一女业主车位被女邻居霸占数月、一怒之下焊上地桩的事件引发各方关注,而且持续发酵,双方僵持不下,各方调解也无济于事。据媒体报道,5月8日,占用车位的车主唐女士回到长沙...
日期:05-10
VMware公布2024财年第一季度财报「vmware 上市」
VMware公布2024财年第一季度财报   2024财年第一季度订阅收入32.8亿美元,SaaS收入12.2亿美...
日期:06-02
苹果3万亿美元_美科技五巨头的 2021:苹果的 3 万亿只差一步,微软连涨十年
  北京时间 1 月 1 日消息,2021 年,大型科技股推动美国股市连续第三年上涨。投资者对于苹果、微软等科技巨头的需求依旧强劲,几乎没有受到经济环境的影响。   ▲ 美国科...
日期:05-17
easystack融资情况_易捷行云EasyStack入选新基建产业独角兽TOP100
  今年两会,新基建被写进政府工作报告,两“新”中的一“新”便是新基建。后疫情时代,新基建将为经济走入复苏轨道注入新动能,也将推动中国社会向数字化、信息化和智能化的结...
日期:07-14
iPhone 13翻车「iPhone 14再翻车!车祸检测屡次误报」
今年新发布的iPhone 14有一个亮眼功能是结合iOS 16系统增加的车祸监控的功能。此前的新闻中,有车主驾车撞树触发了车祸检测,iPhone 14也表现优秀,不过从新的消息来看,iPhone 14...
日期:10-11
阿里巴巴做到网_中国万网与阿里巴巴协同效应加强,阿里阿外上线
  日前,中国万网对外宣布,万网梦工厂和阿里巴巴合作推出的“阿里阿外”正式上线。这是继云计算、淘里淘外之后,万网和阿里巴巴在B2B领域的一个重大革新之举。   2009年,阿...
日期:07-27
笔记本电脑高清壁纸_笔记本电脑高清壁纸 全屏ins
笔记本电脑作为现代生活中必备的电子产品之一,其高清壁纸也成为了人们美化电脑桌面的重要方式之一。随着科技的进步,笔记本电脑的壁纸也从最初的单一静态图片逐渐演变为多彩的...
日期:05-29
二十年前的互联网长啥样?回味互联网的青葱岁月(20年前的互联网)
  对于年轻一代的人来说,他们生来就是处于一个成熟的互联网包裹之下。如果说十年前的记忆,还停留在朦朦胧胧的Baidu与淘宝上,那么二十年前,对于他们而言则是完完全全的空白了...
日期:07-14
小米 Civi 3 手机今晚开售:仿生双主摄、首发天玑 8200-Ultra,2499 元起「小米civi手机值得买吗?」
2023/5/31 09:47 小米 Civi 3 手机今晚开售:仿生双主摄、首发天玑 8200-Ultra,2499 元起 IT之家  远洋 5 月 25 日小米发布了小米 Civi 3 手机,主打双生双色潮流设计、前置...
日期:05-31
rtx3080抢购「1.3万的RTX 4090国内上架秒罄:越来越用户晒单称真香 老黄给力」
10月12日,NV提前发售了一批RTX 4090公版,虽然12999元价格,但是瞬间抢光。除了线上发售外,10月15日GeForce RTX 4090系列显卡将在线下正式开售,华硕、七彩虹、微星推出现货,提供预...
日期:10-16
计算机系统程序缺陷误放加州上千高危囚犯
  美国加利福尼亚州监察部门说,计算机系统程序缺陷可能放跑上千名对社会有严重危害风险的囚犯。   暂不抓回误放犯人   监察部门估计,450名“高度暴力危险”囚犯和超过...
日期:07-28
Redmi新机开售:8+512G卖2099元_redmi最新款手机多少钱
早在今年3月,Redmi就推出了面向1000多元入门市场的新系列“Redmi Note 11T Pro”其中拥有Note 11T Pro、Note 11T Pro+两款新机,首发价1699元起。锤子骁龙855而现在Redmi推出N...
日期:10-05
iphone6s升级ios14电量「iOS 16.1 beta系统升级 苹果iPhone全系支持电量百分比」
前不久苹果推送了iOS 16系统,给主流iPhone机型带来了电量百分比的功能,然而有四款机型被抛弃,iPhone XR、iPhone 11、iPhone 12 mini、iPhone 13 mini不给支持,引发网友吐槽,今天...
日期:09-23
三维家登陆「三维家首登中国CAD&CG“奥斯卡”顶会 工业元宇宙重新定义制造业」
2022 年 8 月 23 至 25 日,由中国计算机学会(简称CCF)主办的第24、 25 届全国计算机辅助设计与图形学学术会议,在大连富丽华酒店隆重召开。作为中国计算机辅助设计与计算机图...
日期:09-11
CES Asia 落幕,从科大讯飞产品看出这些趋势
  6月13日,为期三天的CES Asia 2019落幕。在今年的CES Asia上,5G、人工智能等成为大热名词。人工智能被称为第四次工业革命的重要推动力,而技术的发展,最终还是要落实到应用...
日期:08-11
各地文旅局长正在高频出圈 以新形象推介本地旅游「2021全国文化旅游厅局长会议」
近日,全国各地的文旅局长们频繁亮相。据河南安阳市融媒体中心消息,2月24日,"中华字都·安阳"红旗渠—殷墟文化旅游推介会将在北京国家会议中心举行。盖茨裸捐900亿美元OPPO哪款...
日期:02-25
员工病假15年起诉IBM:认为工资无法赶上通胀
快科技5月13日消息,IBM的员工伊恩克利福德(Ian Clifford)近期认为现有工资无法赶上通胀压力,和公司协商涨薪无果,将雇主告上法庭。喇叭和喇叭单元的区别据了解,克利福德的年薪为72...
日期:05-13
森林、用电还有垃圾分类 这些利国利民的“小事”正在因飞桨更简单!
  在美国大选年、平权运动的热闹声里,一篇讲述大洋彼岸的中国AI故事意外登上了热读榜单。这篇文章来自全球顶级科技商业杂志、美国麻省理工学院主办的《MIT科技评论》,那些...
日期:07-14
特斯拉ModelY国内交付时长延长到2-5周_特斯拉modely标准续航交付时间
1月9日 消息:据特斯拉中国官网显示,由于近期订单量激增,Model Y后轮驱动版以及长续航版的国内交付时长延长到2-5周,Model Y高性能版的交付时长仍为1-4周。unity 购买此前,特斯拉...
日期:01-09
苹果市值一夜缩水1165亿美元 股价大跌_苹果市值一夜缩水1165亿美元 股价大跌怎么办
中关村在线消息:据国内媒体报道,苹果的市值再次经历大缩水,9月29日当天股价直接大跌4.91%,折合缩水1165亿美元。据媒体报道称,由于消费者需求疲软,美国银行下调了苹果股票评级,美银...
日期:10-04