您的位置:首页 > 互联网

识读2300多年的战国竹简,竟只用2B端侧大模型!面壁发布新一代“小钢炮”

发布时间:2024-04-13 10:54:08  来源:互联网     背景:

声明:本文来自于微信公众号 量子位(ID:QbitAI),作者:金磊,授权转载发布。

识读距今2300多年战国时期的上古竹简,AI正在立功。

而且在这背后的“大功臣”,竟是只有2B大小的多模态大模型!

第九届互联网安全大会(ISC 2021)奇安信

这批上古竹简,由清华大学于2008年7月收藏,因此也被称为清华简。

清华简的数量大约是2500枚,其内容在已被发现的先秦竹简中也是前所未见,被认为是继甲骨文、敦煌遗书、居延汉简、云梦秦简之后的又一重大发现。

不过也正因如此,识读清华简便成了老大难的问题,因为上面的文字基本上都是楚文字,秦始皇统一文字后就已被废弃。

而就在最近,研究人员在一个2B大小的多模态大模型助力之下,成功地在清华简的版式检测和文字识别上取得突破:

例如询问这个大模型:

这张图里最短的木头上第一个字是什么?

它不仅可以准确找到最短的竹简,也能精准地识别出上面的楚文字是现代的“可”字。

即使是和现代文字差异较大的古文字,这个大模型也能查字询意,得出正确结论是“我”。

并且研究团队还表示,他们正在尝试继续用这种方式进一步做探索。

嗯,不得不说,大模型“以小博大”这事,已经开始波及到多模态了。

那么这个2B大模型,到底是什么来头?

最强端侧多模态大模型,手机就能跑

不卖关子。

这个2B多模态大模型,正是由清华系初创公司面壁智能最新升级的小钢炮系列,最强端侧多模态大模型——MiniCPM-V2.0。

划个重点:手机端就能跑!

MiniCPM-V2.0的地址:

https://github.com/OpenBMB/MiniCPM-V

MiniCPM系列地址:

https://github.com/OpenBMB/MiniCPM

那么它的能力到底几何?为什么说是最强端侧多模态大模型?

首先来看多模态通用能力,这也是能够衡量其底座水平的一个重要指标。

在多模态大模型综合评测权威平台OpenCompass榜单上测试的结果显示,MiniCPM-V2.0虽然只有2B的体量,但得分已经超过了10B、17B甚至34B的主流选手:

其次再看OCR(光学字符识别)综合能力,这可以说是检测多模态识别与推理能力最硬核的指标。

在权威的OCR综合能⼒榜单OCRBench中,MiniCPM-V2.0同样是用2B的“姿势”竞技,刷新了开源模型SOTA:

并且在场景图片文字识别榜单TextVQA中,MiniCPM-V2.0更是直接秒杀了全系13B体量的通用模型。

甚至部分能力已经可以比肩多模态领域的王者Gemini Pro:

aaa企业认证是什么意思

不仅如此,在中文OCR能力方面,MiniCPM-V2.0展现的性能效果明显超越了GPT-4V。

同样是识别一张街景图,MiniCPM-V2.0可以准确地叫出大厦的名字,但GPT-4V却只能回答“看不清楚”。

那么,MiniCPM-V2.0是怎么做到不“近视”的呢?

传统做OCR的方法是比较粗暴的:它们只能处理一个固定尺寸的图片,因此就会把偏大或不规则的图片强行进行压缩。

这就会导致原始图片中大量信息的丢失,再次放大的时候就仿佛近视眼一样,很多细节都变成了马赛克:

同样的道理,传统的方法在处理极端长宽比的长图(如1:9)时效果会大打折扣,因为很长的图压缩成正方形同样会造成大量信息丢失。

为此,面壁智能团队所提出的解法就是“分而治之”——

并不是暴力压缩,而是把不规则的图片分成若干个小的图片,然后再按照大模型OCR的方式去自适应处理。

与此同时,为了解决大图像“切块”后所带来的计算量增长问题,团队还针对性地做了一个视觉模块压缩的工作,可以让增长的计算量通过局部的一些视觉感知压缩方法再打下来。

由此就保证了计算量和模型效果之间的平衡。

据团队介绍,MiniCPM-V2.0可以处理最大180万像素高清大图,甚至1:9极限宽高比的高清图片,对它们进行高效编码和无损识别。

具体效果如下所示:

除了多模态通用能力和OCR综合能力之外,幻觉也是考量一个多模态大模型性能的重要指标之一。

在这方面,MiniCPM-V2.0所参与的则是Object HalBench榜单。

结果显示,其幻觉水平是与GPT-4V持平的:

而MiniCPM-V2.0,也还仅是面壁智能最新发布内容中的一隅。

除了它之外,面壁智能还发布了额外三个同样是“小体量”的大模型。

由此,在MiniCPM2.0的矩阵中就形成了“四大金刚”屹立的阵容——四驱小钢炮。

那么四驱小钢炮中的其它三个大模型还解锁了哪些能力,我们继续往下看。

1元=4150000tokens,适用更多端侧场景

在追求“小”这件事上,面壁智能再次刷新自己的纪录——MiniCPM-1.2B。

至于它的特点,一言蔽之:

参数减少一半,仍保持上一代2.4B模型87%的综合性能。

同样的,在公开测评榜单中,其成绩依旧是做到了越级超越:

值得一提的是,MiniCPM-1.2B现在也是可以在手机端侧跑起来的那种,速度可以达到25tokens/s(人类说话速度的15-25倍):

△现场演示效果

不仅如此,MiniCPM-1.2B还做到了把价格和内存打下去。

以iOS为例,MiniCPM-2.4B的量化模型是2.10G;而到了MiniCPM-1.2B,则只需要1.01G,内存减少51.9%。

价格方面更是打了6折:1元=4150000tokens。

(计算方式为:苹果A17Pro为130美元(约人民币950元),如开metal,速度最大为25tokens/s;若芯片使用5年,则推理代价为 (25×3600×24×365×5)/950=415万 tokens/元)

这也就意味着现在更多端侧场景“快好省”地跑大模型成为了可能,不只是手机,还包括穿戴设备、PC、智能家居、汽车等等。

在各个大模型玩家都在你追我赶的长文本领域,面壁智能这一次也出手了——MiniCPM-2B-128K。

直接解锁了一个新的之最——最小的128K长文本大模型。

在InfiniteBench榜单的平均成绩也是超越了同体量的其它选手:

而之所以要做这个工作,在面壁智能看来,是因为目前在实际真正需要调用长文本大模型的时候,还是需要非常大的内存才能做较好的推理工作。

面壁智能表示,他们还将继续对MiniCPM-2B-128K做优化工作,尽快让其能够在端侧跑起来。

除此之外,面壁智能还在另一个大火的技术上发力,那便是MoE(混合专家)——发布了MiniCPM-MoE-8x2B模型。

(MoE能在不增加推理成本的前提下,为大模型带来性能激增。)

通过MoE的性能增强,让2B小钢炮(MiniCPM1.0)在其原来的基础之上性能平均提高4.5个百分点。

从榜单成绩上来看,MiniCPM-MoE-8x2B模型做到了在性能上的越级超越,并且推理成本仅为Gemma-7B的69.7%:

以上就是四驱小钢炮的全部内容了。

双十一对电子商务的影响分析

不难看出,四驱小钢炮中的每一个“驱动力”都主打“够小,但能打”。

而且纵观面壁智能此次的发布,提及最多的两个关键词就是“端侧”和“最小”。

那么面壁智能为何要如此极致地追求于此?

端侧,需要高效大模型

其实从大模型整体的发展趋势来看,这两个关键词早已是定数。

自从ChatGPT引爆大模型以来,先是在国内外引发了一波百模大战的热潮,都将极大的算力和资金投入到了训练的过程当中。

而当底座的大模型训练完毕之后,各个大模型玩家又将工作重心向推理侧倾斜,随即也迎来了各式各样AIGC应用的百花齐放。

与此同时,大模型不再仅仅较真于参数规模、跑分和测评,更注重在应用侧发力。

一言蔽之,比的就是看谁能“快好省”地用起来。

在端侧的表现尤为明显,比如大火的AI手机、AI PC便是很好的印证;而要让大模型能够在端侧丝滑地跑起来,那么其体量注定便不能过于庞大。

这就注定了端侧的大模型必须要满足两点:要小,还要性能高效;也就不难理解面壁智能为何如此极致地追求于此了。

那么接下来的一个问题是:要怎么做?

面壁智能CEO李大海给出了一种“高效公式”解法:

高效大模型=高效训练+高效落地+高效推理

首先在高效训练这件事上,从面壁智能的first day开始,就已然是一个终极目标一样的存在了。

面壁智能最早训练大模型之际还并没有多机多卡的训练框架,为此,团队便自主研发了BMTrain框架来支撑大模型的训练,成本相比于GPT-3直接下降了90%之多。

现如今,面壁智能在高效训练中持续死磕的一个目标就是“高效Scaling Law”,这也是“第一性原理”一样的存在。

它不同于OpenAI向上大力出奇迹的玩法,主打的就是争取更大的模型压缩效率,用更少的高质量数据训练出更好、更小的模型,这也是避免算力等资源巨大浪费的方法之一。

其次是高效落地,具体来说便是AI智能体(Agent)。

早在去年3月份之际,面壁智能便已经发表了关于AI智能体的相关论文,随后又将其演变成SaaS级智能软件开发平台ChatDev,就是为了把这种“一句话搞开发”的门槛再次打下去。

具体而言,在产品版ChatDev加持之下,在开发的整个流程中,从产品经理到程序员,再到设计和测试等等,统统都是AI智能体;开发的迭代,也变成了有想法就行的事。

要知道,常规软件的开发周期是在2-3周,且成本在10000-50000美元之间(包括人力);如此对比起来,可真的是大写的“降本增效”!

除此之外,基于其大模型底座的基础能力,面壁智能还曾开源了两项重磅的工作——AgentVerse和XAgent;加上我们刚才提到的ChatDev,三者共同形成了大模型驱动的AI Agent“三驾马车”,围绕的核心便是AI智能体。

这也正是AI智能体能够将落地这件事变得高效的原因。

到这里,仅是在高效训练和高效落地这件事上,面壁智能就已经形成了“大模型+AI智能体”这样的技术路线。

而就在前不久,AI大牛吴恩达也公开在X中发表观点,对这样的模式给予了高度的认可。

至于高效大模型的最后一个部分高效推理,则是端云协同技术。李大海对此表示:

我们在做出更小的大模型之后还是不够的,我们还希望通过端和云的协同来让所有的大模型的应用都能够做到一个更低的推理成本。

在这一方面,面壁智能其实也早已有所涉猎,所提出的衔尾蛇投机采样技术,可以说是打破了传统云侧大模型服务方案中因大模型串行逐 token 生成并伴随每次生成带来的频繁访存,所造成的远低于计算上限的读写速度瓶颈。

具体到端、云之间的协作,就是将起草的小模型放在手机侧、效果更好的大模型放在云侧,通过用小模型给大模型打草稿、做验证的方式,减少云端访存读写工作,为云端减负。

如此,大小模型通过敏捷的双向反馈机制,得到推理速度提升的互相激发。

以上便是面壁智能的“高效公式”了。

总结来看,面壁智能到目前为止所发力的一切,也与其智周万物的愿景高度契合——就是要让大模型“快好省”地用起来。

One More Thing

面壁智能在近日也迎来了融资方面的好消息——

完成新一轮数亿元融资。

李大海在公开信中也透露了资金的用处,依旧将是技术和人才:

我们将进一步加速团队建设,提升面壁智能在大模型领域的技术实力和市场竞争力。

特别地,我们将会着重引入更多优秀人才,加强大模型发展的底层算力与数据基础,持续引领高效大模型路线,推动大模型高效、快步应用落地。

有技术,有人才,有市场,面壁智能是值得继续关注一波的大模型实力派选手了。

MiniCPM-V2.0的地址:

https://github.com/OpenBMB/MiniCPM-V

MiniCPM系列地址:

imac每年都会更新吗

https://github.com/OpenBMB/MiniCPM


返回网站首页

本文评论
看“厂妹”直播,4亿打工人的求职新方式_厂妹都去哪了
声明:本文来自于微信公众号 电商在线(ID:dianshangmj),作者:沈嵩男,授权转载发布。短视频、直播电商,开始生长出预料之外的业态——线上蓝领招聘。线上投简历、面试,包办入职。对...
日期:10-02
杀疯了!Redmi Note 13 Pro 支持IP68:同级别唯一
快科技9月19日消息,从小米11Pro、小米11Ultra开始,小米就开始为旗舰手机引入了IP68防水防尘。如今小米13全系都标配,甚至还下放到了Redmi K60至尊版这样的性价比机型上,成为同级...
日期:09-19
黄仁勋在amd工作「公司为此研发投入约百亿-黄仁勋,新款AI芯片售价在3-4万美元」
3月20日消息,在美国时间周二的一次采访中,美国芯片巨头英伟达首席执行官黄仁勋表示,人工智能领域最新一代Blackwell架构芯片,价格区间预计为3万至4万美元。淘宝掌柜信用等级怎么...
日期:03-20
9月安卓旗舰机性能榜出炉:天玑9000+以一胜九 打败所有骁龙处理器「手机处理器性能排行榜天玑900」
这是属于联发科的高光时刻。10月1日,安兔兔发布9月安卓手机性能榜,天玑9000+以一胜九,打败了所有骁龙处理器。新车测评活动榜单显示,ROG6联合联发科调校出来的天玑9000+一举胜过...
日期:10-02
可重复使用10次以上 中国130吨级液氧煤油发动机试车成功「中国500吨级液氧煤油发动机样机」
最近一段时间,我国在航天发动机上不断取得突破,不仅500吨级重型火箭试车成功,现在可重复使用火箭发动机也有了进展,130吨级可重复使用泵后摆液氧煤油发动机首台两次起动试车圆满...
日期:11-29
熊猫烧香作者李俊证实已加盟杭州网页游戏公司
  2010年5月17日,有传言称熊猫烧香作者李俊转攻游戏行业,加盟了杭州一家网页游戏公司,担任类似技术总监的职务。   传言称李俊本人觉得这家公司还处于创业初期,因此希望能...
日期:07-29
阿里巴巴创新创业大赛_移动创业者新机遇 淘宝联合支付宝举办开发大赛
  “逛街的时候掏出手机比比价格,在等车的时候给自己充个话费,走小运的时候买个彩票试试手气,花一毛钱看网络小说,无聊的时候在手机上逛逛店铺。”这已经成了很多用户的日常...
日期:07-28
苹果公布第四季度财报 三个月狂赚1500亿人民币_苹果四季度财报时间
中关村在线消息:近日,苹果公司了第四季度的财报。苹果公布第四季度财报总净营收为901.46亿美元,与上年同期的833.60亿美元相比增长8%;净利润为207.21亿美元,与上年同期的205.51...
日期:10-29
美团港股急跌超10% 腾讯回应出售美团股权传闻:不予置评_美团是不是港股
激光电视全色 查看最新行情   记者/张洋洋   美团股价午后持续走低,跌幅现扩大至10%。此前有市场消息称,腾讯计划出售美团的全部或大部分股权。对此,腾...
日期:08-21
视觉中国市值多少「视觉中国市值蒸发近半、净利润下滑超40% 开辟新赛道成色几何?」
  《投资者网》葛凡梅  编辑 汤巾  作为全球最大的数字版权内容平台之一,视觉(中国)文化发展股份有限公司(下称“视觉中国”,000681.SZ)今年上半年的业绩表现并不理想。  ...
日期:09-05
小米产品总监科普手机计算器全线“阵亡”原因_小米手机有计算器吗
  小米产品总监@MIUI凡发文《手机计算器全线阵亡终结贴》,详细的科普了为什么计算器会出现这样的运算结果。   以下为《手机计算器全线阵亡终结贴》全文:   鉴于昨日计...
日期:02-10
安全厂商扎堆进军网购安全  金山“网购保镖”率先曝光
  年终岁末,正值网购高峰期,网购安全问题备受关注。近日,国内知名的安全厂商金山网络发布了《2010年中国网购安全报告》,引发了公众对网购安全问题的广泛关注,各大安全厂商也...
日期:07-25
95%的主播月收入低于5000元 仍有众多年轻人加入改行_多数主播月入3000至5000元
《中国网络表演(直播与短视频)行业发展报告(2022-2023)》是由中国演出行业协会网络表演(直播)分会、南方都市报、南都大数据研究院三方联合发布的。报告显示,到 2022 年底,我国...
日期:12-04
经典黑金搭配 土豪金铰链盖吸睛 「三星Galaxy」-Z Fold5 Thom Browne限量版官宣
8月3日,三星如期举办了中国新品发布会,推出了折叠屏手机、Watch 6系列手表、Galaxy Tab S9系列平板等多款新品,其中最受关注的自然是全新的三星Galaxy Z Fold5折叠屏旗舰,该机不...
日期:09-09
水滴发布二季度财报:净收入6.79亿元「水滴营收」
9月7日,水滴公司(WDH)公布截至2023年6月30日未经审计的2023年第二季度业绩报告。2023年第二季度,水滴公司净营业收入6.79亿元,环比增长12%;净利润2170万元,连续6个季度实现盈利。业...
日期:09-07
瑞银预计苹果iPhone今年出货量2.29亿部 增速四年来首度落后安卓_苹果手机今年出货量
2月21日消息:据瑞银分析师预估,苹果iPhone今年的出货量将下滑,增长率将是四年来首度落后安卓手机。瑞银分析师团队预测,今年的iPhone出货量将减少0.7%到2.29亿,相较下,安卓智能手...
日期:02-22
English Coach好不好用 AI英语工具分享_coach,英语
English Coach是一款基于人工智能的英语学习软件,它可以帮助你提高你的英语口语和发音能力。English Coach的体验入口在哪呢,这里我们来看下English Coach的官方体验入口。>>>...
日期:01-10
上映第二天票房近6亿!《流浪地球2》豆瓣开分8.3:中国最强科幻_截至2月10日晚,科幻片《流浪地球》票房超过二十多亿元
今天是大年初二,春节档电影已经全部上映,目前首波口碑已经出炉。其中《流浪地球2》已经豆瓣开分,拿到了8.3份的成绩,虽然相比《阿凡达2》开分的8.4份略低,但作为一款国产科幻片已...
日期:01-24
手机拍长焦为什么会模糊「都是手机上的长焦镜头,为啥有些就是拍不好演唱会?」
事情起因是这样的,最近我发现一个很有意思的现象。现在如果你去某红书上输入关键词“ 演唱会神器 ”,会发现上面的网友除了在推荐那些长枪大炮或者望远镜、增倍镜这些物理外挂...
日期:12-31
抖音直播99元四双鞋「原价8999元直播只卖1999的宣传套路深 抖音出手严管虚构商品比价」
前不久嘎子哥谢孟伟直播卖手机一事引发热议,他在带货时宣传原价8999元,直播间只卖1999元,结果手机实际售价只有1000出头。2000以下性价比wifi博通和高通此事引起了很多网友的质...
日期:03-09