您的位置:首页 > 互联网

国产大模型第一梯队玩家,为什么pick了CPU?_最好的国产模型

发布时间:2024-07-11 11:54:17  来源:互联网     背景:

声明:本文来自于微信公众号 量子位(ID:QbitAI),作者:金磊 梦晨,授权转载发布。

AI一天,人间一年。

现在不论是大模型本身,亦或是AI应用的更新速度简直令人直呼跟不上——

Sora、Suno、Udio、Luma……重磅应用一个接一个问世。

也正如来自InfoQ的调查数据显示的那般,虽然AIGC目前还处于起步阶段,但市场规模已初具雏形:

预计到2030年将达4500亿人民币。AIGC应用正呈现多点开花之势,逐步从通用场景向行业纵深渗透。

行业整体迅速发展固然是好事,但具体到每个的应用或者大模型的落地来说,面临的竞争也越发激烈了。

例如前不久各个大模型厂商之间展开的非常激烈的“价格战”,主打一个比谁更便宜,甚至直接把大模型价格推向“厘时代”。

加上最近OpenAI的“断供”事件,更是让国内厂商们在打出“轻松搬家”计划的同时,再加码Tokens送送送的力度。

究其原因,也是与当下应用为王,尤其是以尽量低的成本把业务快速落地的这一大趋势紧密相关。

那么问题来了,大模型玩家们何以在又快又好又省之间做到平衡?

这就回到了那个避不开,同时又是成本里占绝对大头的因素——算力。

现在提及大模型的训练和推理,很多人的第一反应或许就是想到了GPU。

诚然GPU在高性能上占据着一定的优势,但它所存在“硬伤”也是比较明显,那便是供应不足、价格昂贵。

何以破局?国产大模型第一梯队玩家百度智能云千帆大模型平台,就给出了自己的一个更具“效价比”的解法:

除了少数大客户对大型模型追求卓越的性能表现外,大多数企业和机构在采用大型模型时,需要全面评估其使用效果、性能表现以及成本效益,也就是所谓的”性价比”。

具体到算力的部署上,百度智能云AI与大模型平台总经理忻舟认为:

跑AI这件事,其实早期一直是CPU在发挥作用;GPU的火爆也是近几年的事情。

很多场景之下,GPU虽然有高密度的计算能力,但实测表明,现在的高端CPU同样也可以完全胜任。

而且整个AI业务流中不止是有大模型需要做计算,同样涉及前期的数据清洗等环节,这些环节中CPU起到了非常重要的作用。

一言蔽之,在大模型时代,CPU甚至比以往更加重要了,而且是能让大模型和应用做到“快好省”落地的关键因素之一。

那么具体“上岗”效果又是如何,我们继续往下看。

国产头部大模型玩家,pick了CPU

国内AIGC应用爆发,这其中,百度智能云千帆大模型平台功不可没。

作为企业使用大模型的”一站式”服务平台,千帆大模型平台自去年3月发布以来已有超12万客户使用,累计调优模型2万个,孵化应用4.2万个。

这些应用覆盖教育、金融、办公、医疗等众多场景,为行业数字化转型提供了有力支撑。

在教育领域,千帆大模型平台赋能了试题生成、在线批改、题目解析等应用,大大提升了教学和备考效率。

例如用户可以提供参考材料,设定题型和难度,平台就能自动生成高质量的试题。而交互式的题目解析,则可以针对每位学生的薄弱环节,提供个性化的学习指导。

在办公场景,千帆大模型平台与业内头部企业合作,共同打造了智能写作助手等创新应用,能够根据用户输入的关键词,快速生成招聘文案、营销方案、数据报告等专业文档。

还可以专注于各类写作场景,可以智能生成论文大纲、项目汇报、品牌宣传稿等,大大提升了行政和营销人员的工作效率。

医疗健康是千帆大模型平台的另一大应用赛道。基于医疗知识库训练的模型,可以自动生成体检报告解读,用通俗易懂的语言向用户解释各项指标,并给出个性化的健康指导。

这让普通大众也能更好地了解自己的身体状况,实现”健康自主管理”。

可以看到,千帆大模型平台在多个领域实现了AI模型的”最后一公里”落地。

那么千帆大模型平台是怎么支撑如此多AI应用的呢?

答案是:让CPU成为客户的选择之一,让“效价比”的红利普惠千行百业。

之所以如此,百度智能云所给出的解释是:

目前,行业还存在大量离线的LLM应用需求,如生成文章总结、摘要、数据分析等,与在线场景相比,离线场景通常会利用平台的闲时算力资源,对于推理的时延要求不高,而对于推理的成本较为敏感,因此用户更加倾向采用低成本、易获得的CPU来进行推理。

百度智能云等云平台中部署着大量基于CPU的云服务器,释放这些CPU的AI算力潜力将有助于提升资源利用率,满足用户快速部署 LLM 模型的需求。

至于效果,以Llama-2-7B为例,在第四代英特尔®至强®可扩展处理器上输出 Token 吞吐可达100TPS 以上,相比第三代提升了60%。

△Llama-2-7b模型输出Token吞吐

在低延迟的场景,同等并发下,第四代至强®可扩展处理器的首Token时延比第三代至强®可降低50%以上。

在将处理器升级为第五代至强®可扩展处理器之后,较上代的吞吐可提升45%左右,首 Token 时延下降50%左右。

△Llama-2-7b模型首Token时延

并且千帆大模型平台团队根据实践经验还表示:

德国希望促成特斯拉收购这家电动货车公司

针对30B以下规模的LLM模型,皆可采用英特尔®至强®可扩展处理器来获得良好性能体验。

不仅如此,利用充足的CPU资源,降低对于AI加速卡的需求,从而降低 LLM 推理服务的总体拥有成本 (TCO),特别是在离线的 LLM 推理场景中表现出色。

而且在千帆大模型平台上,可不止是有自家的ERNIE,还有很多主流的大模型都集成于此。

这也在一定程度上从侧面印证了第五代英特尔®至强®可扩展处理器在性能上的过关。

英特尔第五代至强,如何让性能和效率变得Pro Max?

芯片价格大跌

百度智能云千帆大模型平台,不止需要大模型推理一种工作负载,它其实是一个覆盖大模型全生命周期的平台。

国内模型大神

具体来说,千帆大模型平台提供数据标注,模型训练与评估,推理服务与应用集成的全面功能服务,以及快速应用编排与插件集成,助力大模型多场景落地应用。这样一来,比起专为大模型推理部署专用加速器,充分利用平台已广泛部署的CPU资源,就是更划算的选择了。

对于千帆大模型平台上存在的大量离线大模型应用需求来说,如生成文章总结、摘要、评估多个模型的效果等,这类需求对推理的时延要求其实不高,但内存容易成为瓶颈。

采用CPU来做,扩展内存更方便,还可以利用起平台闲时的算力资源,进一步提高资源利用率,起到降低总拥有成本的作用。

在这个大背景下,第五代英特尔®至强®可扩展处理器中的性能密集型通用计算应用负载(类似P Core性能核)的设计就尤为关键了。

与E Core(能效核)相比,P Core采用了追求性能最大化的设计,能承载非常重的负载,同时还兼顾了AI推理加速。

采用此设计的第五代至强®可扩展处理器,在兼顾AI推理加速这一点上可不是说说而已,而是软硬件协同优化,各方面都考虑到位了。

硬件方面,英特尔®AMX(高级矩阵扩展)技术,正是为大模型推理重深度学习中大量的矩阵乘法运算专门优化的,可以理解成”CPU 里的 Tensor Core”。

有了英特尔®AMX,处理器每个时钟周期可完成高达2048个INT8运算,比上一代AVX512_VNNI指令提升8倍之多。

更重要的是,英特尔®AMX加速器是内置在CPU核心里的,让矩阵存储和运算更近,这一特性应用在大模型推理上,能够降低处理下一个Token的时延,让终端用户的体验更好。

△英特尔®AMX 可以更高效的实现 AI 加速

软件方面,百度智能云千帆大模型平台已经引入了针对英特尔®至强®可扩展平台深度优化的大模型推理软件解决方案xFasterTransformer (xFT),并将其作为后端推理引擎。主要优化策略如下:

  • 充分利用 AMX/AVX512等指令集,高效实现核心算子如 Flash Attention 等

  • 采用低精度量化,降低数据访存量,发挥 INT8/BF16运算的优势

  • 支持超大规模模型的多机多卡并行推理

△英特尔®至强®可扩展处理器 LLM 推理软件解决方案

最后还要补充的一点是,要知道选择一种硬件平台,不止关乎于设备本身的采购价格,还会影响到后续的维护成本,甚至人才储备成本。

所以正如百度智能云所言,高性价比的算力基础设施,与先进的大模型算法和平台软件相辅相成,让上层的开发者们能够更加平滑地应用,构建他们的业务,才能最大化云计算平台的商业价值。

大模型时代,CPU大有可为

纵观当下,大模型正从实验室走向产业,从少数人的“玩具”变为大众可用的“工具”。

这意味着,大模型服务不仅要有优秀的性能表现,还要做到价格亲民、部署便捷。一言以蔽之,“快好省”成了大模型商业化的关键一环。

最好的国产模型

孙正义收拾烂摊子:花30亿让他走人

而要实现“快好省”,算力基础设施的选择至关重要。

传统观点认为,专用加速器才是AI的“标配”。但在供应紧张、成本高企的背景下,专用加速器的优势正在减弱。

三星的tizen系统

相比之下,优化良好的高端 CPU 不仅能提供足够应对大模型推理的算力,而且具有更广泛的部署基础和更成熟的软件生态、以及更好的安全保障,开始受到越来越多业界玩家的青睐。

以英特尔®至强®系列为代表的x86架构CPU,拥有成熟完善的软件生态和广泛的应用基础。数以百万计的开发者可以利用现有工具和框架,快速构建和优化AI应用,而无需额外学习专门的加速器软件栈,大大降低了开发难度和迁移成本。

同时,企业级用户还可以利用CPU内置的多层次安全技术,实现从硬件到软件的全栈保护,充分保障数据安全和隐私。这些优势,是当前专用加速器难以比拟的。

由此可见,充分利用CPU进行推理,让AI从“烧钱游戏”变为“普惠科技”,正是AIGC产业应对算力门槛,推动规模化应用落地的关键一招。未来,随着技术创新和生态完善,这一模式还将为更多企业创造价值,为产业发展注入新的动力。

除了直接加速推理任务外,CPU在完整的端到端AI管线中还能高效完成数据预处理、特征工程等AI全流程中的关键步骤。而支持机器学习和图分析的各类数据库,也主要是构建在CPU之上的。以至强®可扩展处理器为例,除了英特尔®AMX之外,还有诸如英特尔®数据保护与压缩加速技术(英特尔®QAT)、英特尔®存内分析加速器(英特尔®IAA)等一系列数据分析引擎内置于处理器中,通过卸载特定任务使CPU得到更好的利用,从而提升工作负载整体性能,实现数据分析加速。

由此可见,构建“快、准、稳”的 AI 应用,既要靠专用加速器强大的算力,也离不开CPU超强的通用计算能力去释放整个系统的潜力。

为了科普CPU在AI推理新时代的玩法,量子位开设了《最“in”AI》专栏,将从技术科普、行业案例、实战优化等多个角度全面解读。

我们希望通过这个专栏,让更多的人了解CPU在AI推理加速,甚至是整个AI平台或全流程加速上的实践成果,重点就是如何更好地利用CPU来提升大模型应用的性能和效率。


返回网站首页

本文评论
全球领先系统制造商推出NVIDIA AI就绪型服务器,为企业大幅提升生成式AI性能
通信世界网消息(CWW)NVIDIA近日宣布,全球领先的系统制造商将推出AI就绪型服务器,其支持同于今日发布的VMware Private AI Foundation with NVIDIA,帮助企业使用自有业务数据来定...
日期:08-23
转售罚款5万美元!特斯拉Cybertruck配置单曝光_tesla cybertrunck 价格
快科技12月10日消息,据外媒报道,特斯拉Cybertruck创始限量版的配置单正式曝光。据悉,双电机全轮驱动版本的价格为99990美元起,折合人民币约为71万元;三电机版本的售价为119990美...
日期:12-10
饿了么本地生活_饿了么城代助力本地生活服务的发展与完善
  据了解,2018年中国数字经济占GDP比重达34.8%,其中服务业数字经济比重较2016年增长6.3%,在各行业中增速最快。在数字经济快速发展的推动下,本地生活服务行业各领域保持稳定...
日期:01-20
网易在中国排第几「网易成中国市值第四大互联网公司」
12月14日 消息:截至12月13日收盘,网易的港股市值达到了5425亿港元,超过了美团的5133亿港元市值,使其成为中国的第四大互联网公司。vivo x fold外观体验最新的财报显示,2023年第...
日期:12-14
国泰民安图片2020年「男子因长“国泰民安脸”被盗用照片和女性网友聊天」
赵先生今年40岁,长期生活在深圳。十多年前,他开始从事演员工作,因为他的形象气质较为正派,参与过不少企业老总、公安民警等形象的拍摄。几个月前,有朋友发现有人将他的照片P图成...
日期:02-25
业主买42套房欲打通 楼上墙壁现裂缝:网友吐槽离谱 已停工整改「楼上装修墙壁裂开」
6月4日,广东肇庆,一业主在一大楼二层购入42套房,计划将全部墙体打通后,装修成娱乐场所。一番折腾后,大楼多面墙体被打掉,多条柱子被截断,裸露出钢筋,二楼以上多个住宅的墙壁都出现裂...
日期:06-06
日系首款电动B级轿车!本田雅阁插混版来了:可挂绿牌「本田油电混动车型雅阁」
当前国内新能源汽车渗透率已经超过25%,但日系车中却还没有一款B级新能源轿车,说起来也较为尴尬。不过如今,广汽本田雅阁率先吃起螃蟹,推出了PHEV插电混动版本。日前,在工信部新车...
日期:01-12
陪玩类 App 集中下架,违规向未成年人提供网络游戏服务,这些企业被处罚
  10 月 16 日消息,据央视网报道,近期,各地各有关部门按照最新网络游戏防沉迷通知要求,集中处罚了一批违规企业和平台。   中央网信办集中下架陪玩类型应用。   9 月 7...
日期:07-17
mate20戴口罩解锁「华为Mate 50 Pro即将上线新功能:支持戴口罩解锁」
中关村在线消息:华为Mate 50系列新机已经发售多日,凭借卫星通信、可变物理光圈、应急模式、昆仑玻璃等诸多黑科技,该机热度一直很高。iphone12promax dxomark谷歌AR眼镜(图源酷...
日期:10-05
底比iPhone 13 Pro大 华为Mate 50系列用5000万像素大底主摄「华为1200万像素 iphone 1200万 区别」
9月3日消息,博主数码闲聊站暗示,华为Mate 50系列主摄是5000万像素,型号可能是索尼IMX766。据悉,Mate 50系列主摄传感器尺寸是1/1.56英寸,单位像素面积为1.0微米,支持像素四合一,可...
日期:09-06
男孩过斑马线时对着车辆跳科目三 车主默契配合打灯_冲过斑马线
近日,一个男孩在斑马线上对着车辆跳起了科目三的舞蹈,让人眼前一亮。而更令人意外的是,车主竟然打起了灯光来配合他。这一幕让网友纷纷感叹:“有趣的孩子遇上有趣的大人!”国美...
日期:02-05
华为Mate 60首发鸿蒙4.0、最快或将9月底发布_华为m6鸿蒙正式版
7月5日消息 ,华为Mate 50系列旗舰机发布也快一年了,大家对于mate系列下一代旗舰机还是很关注的。现在有消息曝出,华为Mate 60系列最快或将9月底发布,同时首发搭载全新的HarmonyO...
日期:07-05
聚焦IPO丨钧崴电子IPO研发体系和核心技术体系完善,符合创业板定位
电子元器件制造业是整个电子信息产业的基础支撑,其中,电流感测精密电阻作为电子元件中重要的组成部分,对电子信息产业乃至国民经济的发展都有举足轻重的作用。主要从事电流感测...
日期:01-19
华为戴口罩面部识别「迎来“戴口罩识别”功能 华为 Mate 50 Pro正测试鸿蒙新版本」
据消息显示,华为 Mate 50 Pro正在测试鸿蒙 HarmonyOS 3.0.0.150版本,该版本将带来“戴口罩识别”功能。从图中可以看到,当Mate 50 Pro用户开启“戴口罩识别”后,设备将通过眼部...
日期:10-06
苹果汽车项目曝光:收购车企最佳方案_苹果汽车将会提前问世
据天风证券分析师郭明錤推文,苹果汽车项目在“未来几年内投产”最佳方案是通过收购相应车企,利用现有方案进入汽车市场。此前有关苹果汽车项目的信息很少,目前开发进度情况尚不...
日期:09-28
中国联通推出车联网AI大模型,助力汽车产业创新加速_中国联通车辆智能网联研究院
通信世界网消息(CWW)在数字化转型的浪潮中,人工智能(AI)逐渐成为推动社会进步和经济增长的新质生产力。今年,“人工智能+”更是首次被写入政府工作报告中,引起了全社会的广泛热议。...
日期:05-08
小米与徕卡合作「小米|徕卡联合研发 小米 13 系列 年度影像旗舰 正式发布」
12月11日,小米公司召开 Xiaomi13& MIUI14新品发布会,正式推出全新旗舰 Xiaomi13系列。作为小米徕卡联合研发的第二代影像旗舰,Xiaomi13系列采用全新设计,并搭载了大量来自 Xiaom...
日期:12-12
苹果A16仿生芯片成本高达110美元 是A15芯片2.4倍_苹果A15仿生芯片
10月8日消息,有外媒在报道中称,苹果上月新推出的iPhone 14系列中的最高端款,也就是iPhone 14 Pro Max,包括零部件在内的生产成本,增加到了501美元,高于上一代的461美元。尼康相机...
日期:10-11
15万级纯电SUV卷王!广汽埃安Aion Y Plus上市:13.98万起_广汽埃安新能源aion y
9月27日,AION Y Plus正式上市,共推出510km、610km两个续航版本共计6款车型,补贴后的官方指导价为13.98万元-17.98万元,10月即开始交付。作为15万级纯电SUV的首个10W+,AION Y产品...
日期:09-29
网飞版《美猴王》抢先看 周星驰担任制作人:孙悟空被吐槽像大马猴
网飞动画电影《美猴王》已经定档了,8月18日正式播出,该片由周星驰担任执行制片人,现在它的预告也已经来了。不过美猴王的造型引起了网友热议,尤其是国内网友都不太认可这个美猴...
日期:07-18