您的位置:首页 > 互联网

百“模”混战「百战模拟器」

发布时间:2023-04-15 11:18:16  来源:互联网     背景:

声明:本文来自于微信公众号 光子星球(ID:TMTweb),作者:吴坤谚,授权转载发布。

“面向AI时代,所有应用都值得用大模型重做一遍。”

4月11日的2023阿里云峰会上,阿里巴巴集团董事会主席兼首席执行官、阿里云智能集团首席执行官张勇的这句话其实有些给他人作注之嫌,APUS创始人李涛曾说过一句更提振人心的话:几乎所有行业,都值得被人工智能重做一遍。

随后,阿里云智能首席技术官周靖人正式宣布推出大语言模型“通义千问”。他介绍称,通义千问是一个超大规模的语言模型,功能包括多轮对话、文案创作、逻辑推理、多模态理解、多语言支持,能够跟人类进行多轮的交互,也融入了多模态的知识理解,且有非常强的文案创作能力,能够续写小说,编写邮件等,可以极大增加我们的工作效率。

百混战记

随着阿里AI大模型——通义千问的正式亮相,以及百度、华为、360等互联网头部企业前后脚推出自己的AI大模型,属于AI,又或者说是属于AI大模型的时代到来。但究其根源,大模型在ChatGPT的破圈效应下引发大厂们小步快跑进场,也只是冷饭热吃。

早在2018年,谷歌便提出超大规模预训练语言模型BERT,2020年,OpenAI推出GPT-3超大规模语言训练模型,参数达到1750亿,用了大约两年的时间,实现了模型规模从1亿到上千亿级的突破,并能实现作诗、聊天、生成代码等功能。

2021年,国内大厂也感受到了大模型的东风,华为云发布盘古NLP超大规模预训练语言模型和盘古α超大规模预训练模型、阿里达摩院发布十万亿参数的多模态大模型M6、以及百度也推出了如今文心一言的前身——ERNIE3.0Titan。如果说大模型的元年,其实2021年可能更合适。

总的来说,这一阶段的大模型还充满着“等风口”的阶段,只是彼时的AI大模型尚欠缺商业模式的落地支撑,例如盘古NLP模型在面世之初便确定了自己to B的定位,直至ChatGPT凭借出色的交互以及开放性测试在全球掀起AI狂潮。

于是大厂们纷纷捡起自己的复现成果,调用起云业务中闲置的算力,亦步亦趋地追赶,希望能够后发先至。

泛滥的大模型

OpenAI为大家找到了产品落地之路,引发一众大厂一哄而上。

本轮“狂飙”下的第一个玩家是百度,百度本身浸淫搜索领域、中文垂类知识多年,掌握大量高质量通识数据,而且早在2010年便成立了自然语言处理部,本就是大厂中最早探索AI的一批,如今也是最早推出了类GPT应用文心一言。

4月以来,大模型井喷,入场者接连发布大模型的新闻消息应接不暇。

4月9日,360在2023数字安全与发展高峰论坛上发布类GPT大模型“360智脑”,周鸿祎亲切地称其为“刚生出来的孩子”。4月10日,自学术圈走进商界的AI独角兽商汤科技对外发布了“日日新SenseNova”大模型体系,推出自然语言处理、内容生成、自动化数据标注、自定义模型训练等多种大模型及能力并提供实机演示。

4月11日,阿里在2023云峰会上发布“通义千问”大模型并向社会企业开放使用,邀请企业参与共创自己的大模型。发布会上,张勇在宣布将阿里系应用接入大模型重做时,炫富式地展示了阿里系那令人眼花缭乱的商业应用,完善的APP矩阵与数字商业积累显然成为大模型训练的基石。

紧随其后的腾讯“混元”大模型与华为的“盘古”大模型,一个把守着丰富的社交场景与信息流数据,另一个也手握智能硬件的高频流量,而且两者都通过云服务的市场地位获取了极富商业价值的数据资产。

无论好坏,即使是“刚生出来的孩子”也要“抱出来给大家看”,众大厂赶鸭子上架式的密集发布大模型,怎么看都有点飞蛾扑火的意思。

首先,构建大模型是很难迅速产生商业价值的。参考大模型渴望复现的openAI,尽管在微软的投资下,其公司估值越来越高,但至今仍未实现盈利。芯片、能耗、数据资产等刚性成本也将随着入场者的增加水涨船高。在行业“乍暖还寒”、降本增效的当下,将宝贵的现金流投进AI的无底洞,未必是一个好主意。

其次,大模型并非通往强人工智能的唯一道路。随着数据不断增长,算力持续提升,优化手段越来越好,模型也会越来越大。无数人工神经元分层排列,而参数量描述了神经元之间连接强度的可调值。模型的预训练就是在已知文本的基础上不断重复执行并调整这些参数,以便算法下次做得更好,也就是我们所说的“调教”。

只是堆砌再多文本,AI习得的语言模式也无法让其真正诞生逻辑思维,模仿不了数学推理。目前亦步亦趋在ChatGPT3.5之后的大模型们也将遭遇前者的困境。既然不是为了AI功能性的升级,那么耗费海量算力与“钞能力”的目的也显而易见,ChatGPT为我们拉开了AI大模型商业化落地的大幕,紧随其后上台的人当然要赚上同样的吆喝。

正如微软向OpenAI投资100亿美元,将GPT全面接入自家应用一样,让浩如江海的中小企业通过自己的大模型来打造属于相应的中小模型,是OpenAI昭示的商业落地路径。大模型的井喷是这条路径的复现,遵循着相同范式——花大钱做“费力不讨好”的大模型,争取市场地位。

这一范式实际上也不新鲜。打个比方,在数字化时代下的应用需要一个操作系统,微软凭借Windows占据PC头把交椅,即使后来者创造了无数使用体验更好的产品,也难以动摇微软的地位,因为这些产品的开发都基于Windows这个操作系统。

而智能化时代同样需要操作系统,在OpenAI进不了国门的前提下,市场自然会寻求替代品,如今的大模型之争本质上是下一代操作系统之争。面对当下国内大模型喷涌,APUS李涛认为,“所有人在争大模型的本质,实际上是争操作系统的话语权,一旦谁能控制,就会获得最大的商业回报”。

在他看来,中小模型对应商业场景,因此中小企业应致力于此;大模型对应行业标准,获取话语权意味着主导未来生态。

AI浪潮前,我们共同经历数字化,平台作为流量的集中入口,主宰移动互联网商业的变现能力。AI浪潮下,我们共同经历智能化,大模型作为操作系统,主宰云上的业务和应用。谁都想成为下一个谷歌和微软,但过程想必不会轻松。

算力、场景、文本的堆砌归根结底是一个钱字,飞蛾扑火中的玩家们有享受烧的过程的、有燃烧自己照亮他人的、当然也有向往光明的。

正如李开复所言:“AI2.0时代已经到来,会诞生比移动互联网大10倍的机会。”

大模型的主航道在哪?

More is different。

AI大模型或许还不是无所不能,但在要素的堆砌下,大模型无疑能兼容更多的场景和领域。如果说大模型的第一步是通用于各行各业,那么第二步飞跃便是在垂类场景中降本增效。

既然目标是星辰大海,玩家们手中怎能缺了恶魔果实?

算力是AI发展的基础三要素之一,是训练AI进行海量数据的重复多轮处理的能力。据OpenAI测算,2012年开始,全球AI训练所用的计算量呈现指数增长,平均每3.43个月便会翻一倍,目前计算量已扩大30万倍,远超算力增长速度。GPT的迭代便足以直观呈现算力需求的井喷,GPT-3模型参数量有1750亿,是GPT-2的100余倍。下一代GPT-4模型的参数量虽未公布,但业内人士预测其参数量足有上万亿。

公开信息显示,GPT-3大模型需要训练355个GPU/年,假设企业以一个月为期限训练自己的大模型,将需要4260个AI加速卡方可让产品面世。而这只是参与游戏的“入场券”需求,更重要的是通用大模型在垂类场景中展现的效能,而效能源自于大模型在高价值文本下的不断训练。

换言之,谁手里掌握更多、更有价值、更普世的场景与数据,谁做出来的大模型更好。

首先我们得恭喜在移动互联网时代中把握巨大流量入口的企业们,社交、电商、搜索等人们日常生活中不可避免的应用所产生的数据,具备让大模型to C商业化落地的可能。其次我们还要恭喜数据库厂商,各类垂直数据库不可避免地成为大模型眼中的香饽饽,只是多个数据库间不互通以及模型导入、存储、使用等问题还有待解决方案。

大模型是唯一的正确道路?

AI模型一定是越大越好吗?

知名期刊《Nature》就此议题采访了多位专家,并发表了名为《In AI,is bigger always better?》的研究,一些科学家认为,更大的模型只是在回答训练数据相关范围内的查询上变得更好,并不能获得回答全新问题的能力。

人工智能前沿的争论之声未消,但目前的通用大模型并不能真的通用于千行百业。一位业内人士认为,大模型最有价值的地方是通用性强,例如可以支持数以万计,甚至十万计的小模型。

大模型虽好,却是一门昂贵且需要耐心的事情。为了大模型的规模效应,巨量算力成本背后的芯片与电力消耗已然成为掣肘AI进一步发展的锁链。而且以目前训练大型语言模型所涉及的数据、计算能力和费用来看,只有拥有超大计算资源的公司才能做到。

以谷歌与柏林大学合作研发,用来和GPT3打对台的PaLM为例,5400亿的恐怖参数下,研究人员测算其训练一次的成本便上千万美元,谷歌自己在训练PaLM的两个月内便耗电3.4千兆瓦时,这相当于大约300个美国家庭一年的能源消耗。

即便谷歌称其所耗能源构成有89%为清洁能源,但目前国内主流发电形式仍是火电和“看天吃饭”的水电。

芯片方面,由于目前国产自研芯片最高端水准的14nm芯片只能覆盖云计算算力需求而无法覆盖AI算力需求,大模型构建同样面临“卡脖子”问题。大模型算力需求的英伟达GPU芯片一方面成本高昂,单块1万美元到2万美元的售价反映在大模型构建上,便是数十亿美元。国内大模型玩家还能腾出多少闲置芯片来训练大模型?例如阿里的存粮能给大模型匀多少量还是一件值得深究的事情。

再者是,目前的中国企业与个人并不是非大模型不可。即使忽视大模型真的面向千行百业后,在训练上将产生的巨额功耗与成本,我们也不能忽视目前诸多垂类行业数据稀缺、逻辑难以被AI所理解模仿的现状。

而且,程序员们一定知道多任务、多线程可是会互相打架的。按照张勇在阿里云峰会上提出的“用大模型重做各个应用”,用各行各业具有冲突性的数据训练,不一定能提高垂类行业使用模型的效能。在参数猛增的情况下,精度未必能一直持续上涨,即使是Transformer架构,也具有它的极限。

相同大模型“赋能”之下的同质化人才同样不具备竞争力,而是被AI覆盖的“时代的眼泪”。相反,如果AI能成为个人的个性化化身,是放大自身能力的小模型,说不定还能在被大模型覆盖的世界中杀出一条血路。

英特尔利润率

那么能不能用大模型对小模型蒸馏,让大模型学习小模型的成果呢?目前这一做法面临大小模型架构差异的问题,如何顺畅互通还是未知数。

不论AI的未来是more is different还是less is more,通用大模型的“通用”二字还是要打上一个问号。


返回网站首页

本文评论
防得住、杀得准、用得爽! 360杀毒全球首创“3D防御”_360强力杀毒软件
  8月3日,中国第一大互联网安全服务提供商360公司发布了360杀毒3.0尝鲜版。新版360杀毒全球首创了独具入侵、隔离、系统三大防御维度的“3D防御”体系,并能在1秒内极速“云...
日期:07-22
迅雷:第二季度营收7830万美元 同比增长41.9%「迅雷净利润」
  讯8月16日晚间消息,今日,迅雷公布了截至2022年6月30日第二季度未经审计的财报。据财报显示,迅雷第二季度总营收为7,830万美元,同比增长41.9%,符合预期收入指引。基于通用会计...
日期:09-27
放弃百万美金期权 当当网前高管陈腾华创业
  当当网在坚守10年之后,终于在去年12月8日成功登陆美国纽交所,上市当天股价飙升87%,并在其后几天市值一度超过25亿美金,到目前仍站稳在20亿美金的市值。就在坊间热议上市会...
日期:07-25
英特尔发布超百亿算力GPU,进军数据中心_intel cpu 算力
随着人工智能的不断进步,大算力的数据中心也得到了长足发展。面向视觉云的数据中心GPU市场规模有望在2026年增长至150亿美元。雷峰网如今,数据中心也正在各大芯片厂商的业务中...
日期:09-04
“汇聚家年华”汇云聚美首届员工家庭日落下帷幕_汇云聚美年会
  2021年7月17日,汇云聚美员工家庭日在这个夏天热烈开场,本次员工家庭日的举办地为汇云聚美苏州运营中心。汇云聚美员工家庭日是全体员工和家属之间的亲密互动,也是给员工家...
日期:12-25
闪存降价太狠 SSD利润暴跌:都不如HDD机械盘有钱赚_ssd降价趋势
今年NAND闪存遇到了大熊市,价格跌的厉害,SSD硬盘的价格也直线滑落,我们昨天推荐了多款2TB及以上的SSD,价格可以做到799元了。对消费者来说,现在SSD价格很爽,然而对厂商来说,现在的...
日期:11-08
“打不过”ChatGPT,就加入_打不过就加入是谁说的
声明:本文来自于微信公众号 霞光社(ID:xxxxx),作者:Yinting Hou,授权转载发布。ChatGPT掀起全球热潮,并开始“入侵”人类生活。赛门铁克营收2月19日,根据《韩国经济新闻》报道,出版商S...
日期:03-01
手机平板电脑占全球_国内平板电脑企业未抗敌先内乱 除了iPad用户喜欢其他Pad吗?
  国内平板电脑企业未抗敌先内乱iPad 2没有第一时间选择杀入中国市场,iPad却开始全球同步降价。乔布斯不重视中国市场吗?这一招让人匪夷所思,但有分析人士认为,“这样才能看...
日期:07-27
荣耀70立减500 提前进入双11促销 到手2199_双十一满200减30要领券
荣耀70在国庆节期间就有不错的销量,而立减500元的活动依然继续持续到月底,双十一的大促已经提前到来了,由于用户的热情不减,8+256G仍然立减500元现在到手只要2199元了。而12+256...
日期:10-21
乔布斯每天四点起床_苹果CEO乔布斯健康状况不错 凌晨两点仍工作
  据国外媒体报道,尽管去年接受了肝移植手术,但苹果CEO史蒂夫·乔布斯(Steve Job)的身体状况似乎不错,凌晨两点钟仍在回复网友的电子邮件。   上 周五晚上,Gawker网站编辑...
日期:07-29
360杀毒首度参加AV-C即获得认证
  北京时间4月13日,专业安全测试机构AV-Comparatives发布2011年第一期《杀毒软件手动扫描测试报告》。作为国产杀毒软件的唯一代表,360杀毒首次参加AV-C测试便表现不俗,成功...
日期:07-27
国美618家电套购 双重优惠福利加倍(国美电器618)
  618大促似乎刚刚开始就已进入倒计时,还没有享受优惠的用户要抓紧时间了。今年618,国美家电产品价格直降,并在此优惠的基础上推出套购满额返活动,针对自营大家电产品跨...
日期:07-14
亏损10亿美元!奈飞较5月低点反弹50%,空头遭重创「奈飞股票行情」
  最近几个月做空奈飞(NFLX.US)的投资者损失惨重。  这家流媒体巨头的股价较5月份的低点飙升了50%,这主要得益于其推出有助于重振增长的新功能、季度业绩好于预期,以及最...
日期:09-27
SpaceX:星链互联网服务已经获得超过 14.5 万用户_spacex星链计划官网
  北京时间 1 月 7 日早间消息,据报道,埃隆・马斯克(Elon Musk)的 SpaceX 公司在本周四公布了其星链(Starlink)互联网服务的最新情况,称已服务 14.5 万余用户。最近一段时间...
日期:07-17
洋码头曾碧波的简历「洋码头曾碧波的碰壁人生」
  记者/管丢丢  编辑/宋佳楠  在一些家长眼里,少时的曾碧波可能就是“别人家的孩子”,年纪轻轻就考入上海交大少年班,“聪明”是他身上显眼的标签。  按照常规剧情,一个...
日期:10-02
小米电视大师系列正式亮相_小米电视大师发布时间
  (原标题::4K 120Hz / 动态 HDR / 四窄边全面屏)   7月2日消息 今日下午,在小米电视大师系列品鉴会上,。   小米电视大师系列采用四窄边全面屏设计,搭配无缝一体成型中框...
日期:07-14
云存储并非“收房租” 厂商每年都在缴纳昂贵的“水电费”
  近年来,云存储产业飞速发展,市场前景广阔。据MarketsandMarkets发布的一份全球数据存储市场规模预测报告显示,到2024年,全球数据存储市场将破千亿美元大关,达到1022亿美元。...
日期:07-14
元宇宙也有地产泡沫?炒房客这下血本无归了「元宇宙虚拟地产」
声明:本文来自微信公众号“三易生活”(ID:IT-3eLife),作者:三易菌,授权转载发布。作为区块链的衍生品,元宇宙房产自然也与NFT和加密货币“同此凉热”。9月1日,2022世界人工智能大会...
日期:09-12
双11淘宝直播晚会怎么看「淘宝全球购双11将聚焦短视频和直播内容化」
9月29日消息,淘宝直播发文称,淘宝全球购近日举办商家主播买手大会,面向消费者、商家买手、主播/机构等群体宣讲淘宝全球购的双11玩法和重点利好政策,同步解读了未来半年的重点策...
日期:10-06
美国私募对冲基金Elliott高位清空Twitter股权:曾逼迫后者前CEO多西辞职
李大海 知乎手机出门怎么防被偷   讯 北京时间8月16日早间消息,据报道,美国私募对冲基金Elliott资产管理公司(Elliott Management)在二季度清空了Twitter的全部持股。   当...
日期:08-17