您的位置:首页 > 互联网

最强国产多模态刚刚易主!腾讯混元把GPT-4/Claude-3.5/Gemini-1.5都超了

发布时间:2024-08-08 19:12:55  来源:互联网     背景:

声明:本文来自于微信公众号量子位,作者:量子位,授权转载发布。

国产大模型,多模态能力都开始超越GPT-4-Turbo了??

权威榜单,中文多模态大模型测评基准SuperCLUE-V,新鲜出炉:

三星手机电池鼓包

特别是腾讯的hunyuan-vision、上海AI Lab的InternVL2-40B,分别成为国内闭源和开源界两大领跑者,甚至超过Claude-3.5-Sonnet和谷歌王牌Gemini-1.5-Pro。

虽然这次都还是被GPT-4o压过,差距也确确实实缩小了很多。

(这个榜单旨在为中文领域提供一个多模态大模型多维度能力评估参考,GPT-4o等国外模型仅作对比参考,不参与排名哦)

hunyuan-vision也就是腾讯混元大模型的多模态版本了,除了开发者调用API之外,其实在腾讯元宝APP里免费就能体验到。

一直以来,元宝主打“实用AI搭子”,似乎着重强调的是实用易用性;没想到背着咱们偷偷拿模型去测评,还捧回来个国内第一,emmm……有点意思。

速腾车的s档怎么使用最好

所以国产多模态大模型进化成什么样了,光看分数还是不够直观,下面就拉出来溜溜。

多模态能力第一?这就上手玩

多模态测试,说实话有点不嘻嘻:还没有出现“弱智吧”一样公认效果拔群的“民间benchmark”。

但又嘻嘻:根本不耽误我们碳基生物用千奇百怪的图片来为难大模型。

那就开始吧!

Round1.1:梗图表情包理解

时间过得好快!昨儿已经立秋了。

夏天夏天悄悄过去,只留下可以用这张meme图概括的心情:

问元宝,这张图什么意思?得到的答案是:

随手测试的程序员祖传题,元宝也轻松应对。

Round1.2:照片内容识别

上来就是一道不走寻常路的“超前”题——编辑部好几个人对着这张图皱眉。

太黑暗了,不知是何物。

答案揭晓,这是最近一个分享贴中,“南京本地人应该也受不了”的黑金榴莲紫薯披萨。

元宝不仅能正确get到图中“太超前”的含义,同时还根据图片猜中了食物拿紫薯当原料。

至于没有猜出榴莲成分,也不能怪它,人类的黑暗料理不管是对AI还是对人类都真的太超前……

再来一道经典题目,数吉娃娃。

可以看到,混元元宝先是分析了题目中“吉娃娃”的外貌特征,然后分别告诉了九张图中哪些是吉娃娃的照片。

不仅答得全对,还看出了图中另一个物种是蓝莓松饼。

Round1.3:视觉错觉挑战

多模态大模型的视觉幻觉问题,是这两年的热门研究方向。

这些测试题真的很有迷惑性,别说大模型了,连人类也常常踩坑没商量。

但腾讯元宝,就这么水灵灵地答对了!

当初难道一种大模型的“哪一棵树更亮”,也谨慎地回答:

不过更难的错觉挑战它就不行了。读图片中隐藏信息的傻傻看不出,怎么问都说“没有啊”:

不过讲道理,这些题GPT-4V也答不上来,大约目前多模态大模型的阶段性能力还没迈过这道坎。

玩耍一番过后,接下来要动真格的!

测试元宝背后hunyuan-vision在实用场景下,表现如何。

Round2.1:财报表现摘要读取

每个季度、半年、年终的财报,打工人看了真的是脑阔痛。

这就把腾讯一季度财报表现摘要截图扔给元宝,让它帮忙浅做分析:

元宝读取了图标中的数据,还在最后还小小总结了一把:

总体来看,该公司在2024年3月31日的财务表现显著优于2023年3月31日,各项指标均有不同程度的增长,尤其是毛利、经营盈利和期内盈利的增长幅度较大。

Round2.2:读取(学术)图表

先来一道没那么学术的图表识别题。

问,一张图中的数字序列,缺少了哪一个?

元宝很好地读图,并正确填补了缺的那个数字:29。

然后随机从一篇关于大模型数据的论文中,截图喂过去。

它也能理解并给出详细解释,最后还来几句总结。

Round2.3:行测找规律题

这一回合的最后上大招——万千人头疼不已的行测找规律题。

题是下面这一道,prompt输入:请从所给的四个选项中,选择最合适的一个填入问号处,使之呈现一定的规律性。

先提前透露正确答案,选C。

在公布自己的最终答案之前,元宝叽里呱啦进行了很长的过程分析(讲真,看得人很紧张)。

最后坚定地选了C选项,答对。

一道GPT-4V没做对的附加题

先做个前情提要,此前研究人员们发现,GPT-4V更擅长解释西方文化背景的图像or带有英文文字的图像。

比如给AI看《白雪公主》,知道是有7个小矮人。换成《葫芦娃》,7个就数成了10个,葫芦山七彩峰也说成了冰山。

那么纯国产大模型,总该表现好点了吧?直接原题译中,丢过去。

发改委答复董明珠淘汰旧家电

好家伙,不仅数对了数量,还在追问中成功辨别这是《葫芦兄弟》的截图。

Nice!

腾讯元宝,真·AI实用搭子

看过这么多实测案例,是时候整体介绍一下背后的模型和整个APP了。

腾讯混元大模型,可以说是一位老朋友了。

去年9月首次对外亮相,之后一直保持着快速迭代。目前已扩展至万亿参数规模,由7万亿tokens的预训练语料训练而来,能力已覆盖了文本、多模态理解及生成等。

在国内大模型中,腾讯混元率先完成MoE(Mix of Experts,专家混合)架构升级,也就是从单个稠密模型升级到多个专家组成的稀疏模型。

今年7月,还解锁了一个单日调用tokens数达千亿级的成就。

腾讯元宝,今年5月底刚刚上线,可能对很多人来说还是新朋友。

值得一提的是,在前一阵“9.11和9.9哪个大”的风波中,腾讯元宝表现不错,无需额外提示自己就能答对。

腾讯元宝主打一个“实用AI搭子”,其中一个特色是APP、小程序和网页都能访问,聊天记录多端同步。

比如在微信聊天中接收到的工作文档,不用转存到手机目录,就可以直接到小程序选择对话直接发给AI了,接下来是总结也好、生成也好都非常方便。

再拿多模态理解能力来说,无论是文档截图、人像风景、收银小票,还是任意一张随手拍的照片,元宝都能基于图中内容给出自己的理解和分析。

背后的一个思考是不光要识别、理解,还要生成满足用户需求的内容。

从前面的测试中也可以看出,丢一个表情包给它,回答也会简短,换成学术图表,回答就会尽量详尽、并且主动附加总结段落。

据腾讯介绍,混元大模型系列中的多模态理解模型,在视觉编码、语言模型、训练数据三方面做了深度的优化,能处理最高达7k分辨率最大16:1长宽比图片,也是国内首个基于MoE的多模态大模型。

把Transformer开山之作,经典论文《Attention is all you need》拼成一个长图,对腾讯元宝来说也完全不是难事,从引言到结论全文覆盖。

而且腾讯元宝团队这次特别透露,接下来会把更多精力放在融合模型多模态能力上。

反正腾讯嘛大家都熟悉,是国内大厂里最重产品,重视打磨用户体验的。

比如最近腾讯元宝开始往“深度”发展,先更新了“深度搜索”,又刚刚上线“深度长文阅读”。

这些功能都是隐藏了技术细节、尽量减少对提示工程的需要,很多功能都是自动识别,一键触发,不需要什么学习成本。

深度阅读功能就初步整合了多模态理解能力,上传一个论文PDF进去,生成的“精度”页面中不仅有文字总结,还能把相应的图表从文档里拽出来。

在很多情况下,都不用来回翻原文对照了。

而且这一次,中文多模态大模型测评基准SuperCLUE-V榜单成绩,也说明腾讯不只搞好了产品体验,也非常看中背后模型基础能力。

所以说,在多模态“图生文”场景下,腾讯又能整出什么实用好活,就非常值得期待了。


返回网站首页

本文评论
夏普手机拍照怎么样「一英寸大底徕卡相机!夏普发布AQUOS R8 Pro手机」
快科技5月9日消息,今天,夏普推出了与徕卡合作的AQUOS R8 Pro手机。高通骁龙arm据悉,AQUOS R8 Pro搭载骁龙8 Gen2处理器,最高支持12GB LPDDR5内存 256GB存储。一加手表nord什么时...
日期:05-09
不调休 奋斗100天-宁德时代推896工作制_员工称免费加班
6月20日消息,据国内媒体报道称,多位宁德时代员工表示,公司加班为真,不过都是口头通知。之前网上曝光的文件显示,宁德时代号召符合条件的员工从6月12日起,施行896的工作日:早上8点上...
日期:06-20
“咪咪”还是“咕噜”吵翻 科学解答来了_咪噜是什么
快科技12月6日消息,最近一女子呼唤猫咪的视频火了,让一众网友吵翻了天。 宠物博主@首席烤鱼官(我家小猫叫咕噜)在视频中呼唤自己的小猫咪,但她叫出的到底是咪咪”还是咕噜”?不...
日期:12-06
4天票房破9亿!《哪吒之魔童降世》能带国漫逆天改命吗?(哪吒之魔童降世的票房突破了几亿)
  最近,《哪吒之魔童降世》强势刷屏,吃瓜群众们磕起了“藕饼”CP,大V们高喊着“新国漫之光”的热血口号,这个化着烟熏妆,梳着齐刘海的“丑”哪吒让人们真香的同时,也一跃成为了...
日期:10-10
集光安防app「集光安防出席第十九届CPSE安博会,全面展出普惠AI产品与解决方案」
第十九届中国国际社会公共安全博览会于 10 月 25 日至 28 日在深圳会展中心隆重举办,本届安博会总面积达110, 000 平方米,设6, 000 个标准展位,云集130, 000 名专业观众。集光安防...
日期:10-27
思岚激光雷达建图_思岚科技新品“激光建图传感器”实测 十万平方米高品质建图
  7月24日,国内领先的机器人定位导航技术提供商思岚科技发布了一款颠覆性的激光传感器SLAMTEC Mapper,它有别于传统的激光雷达,该产品内置了SLAM实时地图构建和定位功能,适用...
日期:09-10
智源等机构发布LM-Cocktail模型治理策略  低成本高性能
要点:大语言模型(LLM)微调通常导致在目标任务上性能提高,但通用能力下降,而开源社区中存在多个模型,选择和管理成为问题。智源研究院发布的LM-Cocktail策略通过融合多个模型,计算...
日期:12-11
英特尔notebook_英特尔与PC厂商联合推出Ultrabook挑战iPad
(萧谔)北京时间6月1日消息,据国外媒体报道,周二在台北国际电脑展Computex大会上,英特尔公司宣布了Ultrabook系列 笔记本 ,新设备将平板电脑的轻薄设计与更快处理器结合起来。英特...
日期:07-28
chinajoy iqoo「“专业电竞 悦享操控”iQOO 11S登场 首销售价3799元起」
通信世界网消息(CWW)2023年7月4日晚,“杭州亚运会电竞赛事官方用机”iQOO 11S正式发布,售价3799元起。iQOO 11S致力于打造“行业最强直屏旗舰”:搭载高通第二代骁龙8旗舰5G移动平...
日期:07-05
托马仕新风还带有这一技能,你恐怕还不知道吧!_托马仕新风有人装吗
新风系统想必大家都不陌生了吧,它在不开窗的情况下可以满足室内一天24小时,一年365天不间断循环置换,将室外的空气经过重重过滤,净化空气中的PM2.5颗粒、灰尘、花粉等等,再输送到...
日期:05-29
realme真我GT5评测:五周年诚意之作 质感越级 性能之王「真我gt5g参数」
从2018年至今,realme真我已经走过了五个年头,在这五年里,realme真我带来了很多款出色的产品,“敢越级”是realme真我的口号,它也遵循着将质价比和实用性放在第一位,为年轻消费群体...
日期:08-29
电动出租车视频「央视曝电动出租车“畏寒病”:司机一天去了四趟换电站」
快科技1月2日消息,电动车冬季变成电动爹”是不少车主的亲身经历,但对于新能源出租车司机来说,对其营运工作的影响更严重。据央视网报道,呼和浩特市每年12月中旬的最低气温能达到...
日期:01-02
消息称雷军仍想将小米汽车卖到25万以上:全面对标特斯拉Model 3等_雷军宣布小米汽车
快科技3月20日消息,据国内媒体报道,雷军对即将发布的小米汽车寄予厚望,但在售价上似乎不太愿意妥协。知情人士透露,小米集团已确定了小米汽车的定价,相较去年有所下调。预计标准...
日期:03-20
OPPO Find X6系列屏幕细节曝光:支持2160Hz PWM超高频调光「oppofindx最高亮度」
在年初的春季新品发布会上,OPPO推出了全新的OPPO FindX5系列旗舰,该机不仅带来了极具辨识度的外观设计,而且在影像方面也极为出众,受到了不少用户的广泛好评。而在时隔半年后,已...
日期:11-02
小米王腾谈蔚来全系车型降价3万:得不偿失 不如赠送有价值的选装
快科技6月12日消息,今日,蔚来全系车型降价3万的消息成为车圈热门话题之一,引起很多网友、博主热议。今日,小米公司河南省分公司总经理王腾也发文谈到了自己对蔚来降价的看法,王腾...
日期:06-12
谷歌和pi合作成立ggp「加速研究力战ChatGPT,谷歌合并旗下两大人工智能部门Brain和DeepMind」
4月21日消息,谷歌当地时间周四宣布,将旗下两个主要的人工智能研究部门Brain和DeepMind合并,新部门名为Google DeepMind。DeepMind联合创始人兼首席执行官戴米斯·哈萨比斯(Demis...
日期:10-01
女子过海关长裙下暗藏玄机:双腿绑满“少女针”被查
快科技8月2日消息,以往海关经常通报游客入境携带SSD、手机等产品的情况,今天却通报了一起与众不同的案件。据海关发布”公告,近日深圳海关所属西九龙站海关查获一名进境旅客在...
日期:08-03
抖音生活服务包括哪些「抖音:4月26日至5月5日生活服务订单量同比增长94%」
5月6日 消息:5月6日,抖音生活服务发布了“五一”数据观察。据统计,从4月26日至5月5日,抖音生活服务订单量同比激增94%,下单消费者数量也同比上涨71%,彰显出节日期间消费市场的强...
日期:05-06
魅族21将于12月发布,外观配置已确认,性价比依旧给力!_魅族172021
近期新品手机市场可谓是颇为热闹,关于各大厂商新机消息是层出不穷,无独有偶,就在这两天又有一款新机传来不少新消息,这款新机便是魅族21,根据多位博主的披露,作为魅族新一代常规...
日期:11-17
中国电信研究院:国内外大模型产业如何发展?_中国电信采用的数据模型设计规范有哪些
通信世界网消息(CWW)人工智能是第四次工业革命的重要驱动力,也是数字化转型的核心技术。随着数据量的“爆发式”增长和算力的快速提升,人工智能技术正迎来新一轮的创新浪潮,其中...
日期:08-11