您的位置:首页 > 互联网

国产GPTs来了,基于智谱第4代大模型!模型性能均达GPT-4九成以上_智谱app

发布时间:2024-01-16 20:13:17  来源:互联网     背景:

声明:本文来自于微信公众号 量子位(ID:QbitAI),作者:衡宇,授权转载发布。

国产大模型玩家智谱AI,交出最新成绩单——

发布全自研第四代基座大模型GLM-4,且所有更新迭代的能力全量上线。

作为国内唯一一个产品线全对标OpenAI的大模型公司,智谱年前攒了波大的:

按官方说法,GLM-4性能相比GLM-3提升60%,逼近GPT-4(11月6日最新版本效果)。

而同时推出的GLM-4-All Tools,能够完成用户意图理解-复杂指令规划-自由调用GLM生态的多种模型能力。

值得一提的是,智谱发布了GLMs,为所有开发者提供AI智能体定制能力,简单prompt指令就能创建个性化GLM智能体。

之前,智谱CEO张鹏就明确过:

OpenAI摸着石头过河,我们摸着OpenAI过河。

摸来摸去摸了一年,以每3-4个月升级一次基座模型的速度,智谱摸着OpenAI过河的最新成绩到底怎么样?真如所说吗?

当官方用上“可对比”“对标”“追平”等字眼后,智谱接下来的路又会怎么走?

好奇,感兴趣,想知道。

(我猜你们也是)。

所以,发布GLM-4的智谱AI技术开放日现场,我们替没到场的小伙伴听了、看了;满肚子的问题,我们也帮大家抓住张鹏问了。

GO——

“摸着OpenAI”,路走成什么样了?

智谱为什么敢喊出“逼近”甚至部分超过GPT-4?

老规矩,直接一起看GLM-4的现场演示:

首先来看整体性能。

基础能力方面,张鹏在现场介绍了GLM-4在各项评测集上的最终得分。

  • MMLU:81.5,达到GPT-4的94%水平;

  • GSM8K:87.6,达到GPT-4的95%水平;

  • MATH :47.9,达到GPT-4的91%水平;

  • BBH :82.3,达到GPT-4的99%水平;

  • HellaSwag :85.4,达到GPT-4的90%水平;

  • HumanEval:72,达到GPT-4的100%水平。

指令跟随能力方面,和GPT-4相比,IFEval在Prompt提示词跟随(中文)方面达到88%,指令跟随(中文)方面达到90%水平,超过GPT-3.5。

2023年比亚迪新车

对齐能力上,基于AlignBench数据集,GLM-4超过了GPT-4的6月13日版本,逼近GPT-4最新(11月6日版本)效果。

在专业能力、中文理解、角色扮演方面,GLM-4超过GPT-4精度。

不过张鹏也表示,GLM-4在中文推理方面的能力,还有待进一步提升。

其次,在大模型的“内存”能力方面,GLM-4系列支持128k上下文窗口长度,单次提示词可处理文本300页,比前作有所提升。

在needle test大海捞针测试中,GLM-4在128K文本长度内均可做到几乎百分之百精度召回。

除此之外,GLM-4系列集成了一些新能力在身上,主要是Agent能力和多模态能力。

多模态能力方面,GLM-4则是把原本就有的文生图(CogView3)、代码能力做了升级。

智谱强调,CogView3效果超过开源最佳的Stable Diffusion XL,逼近DALLE·3。

苏宁家电卖场

曝iphone 15系列将改名type c

至于Agent能力方面,此前智谱发布过AgentLM系列并开源。

这次是把Agent能力整合进了GLM-4,有了GLM-4-All Tools。

它可以根据用户意图,自动理解、规划复杂指令,自由调用文生图、代码解释器、网页浏览能力,以完成复杂任务。

对GLM-4的发布,综合下来给人一种这样的感觉:

去年10月底第3代基座大模型,该公司在模型产品线上和OpenAI逐一对齐;第4代是在拉齐模型能力和OpenAI GPT-4的能力水平线。

明显能感觉到,智谱的基座模型越往后升级,越开始不强调模型参数大小,转而开始尽可能地向外界展示可用能力。

为什么不想强调参数规模了?会像OpenAI一样逐渐close起来吗?

量子位打听了一番,听到的消息是,现在的技术主流路线已经发现并不是参数量越大越好——当然,模型越“大”,肯定能带来能力涌现的好处,但模型越大,成本就越高,成本高自然不是市场想要追求的。

同时,现在的技术演进和发展已经表明,追求更好的能力,可以用一些更精细的方法,在保证模型无需十倍级提升参数的情况下,大幅提升性能。

以上两个原因相加,是智谱也不再强调基座模型参数的背后原因。

下载软件智谱app

参数不强调了,外界的目光自然更加紧盯这一代基座模型的性能——这确实是智谱这回想要强调的东西。

接下来将主要发力三个方向

“大模型的技术,不是说把原来系统里的小模型扔掉,换上大模型的接口就行了。这只是在局部做了替换,本质上并无改变。”张鹏解释道,“但我们大家潜意识里期待的,是完全的革新和创新,是不需要原来的那套结构。”

他补充解释,从新技术出发,改造整个生产流程、提升生产效率和生产力,这就是拥有大模型能力后,“AI原生”会完成的任务。“那AI原生的应用前提条件是什么?还是得回到模型本身的能力。”

张鹏表示,模型能力足够强、维度足够多、能力要能融合产生化学反应从而扩大能力空间,本质上还是看模型能力的事儿。

我们想得很清楚,还是要做好我们最擅长、最喜欢的事情,然后大家一起来做这个生态。

为了把GLM的生态圈建起来、建好,摸着OpenAI过河的智谱,这会推出了可定制化的GLM。

也就是GLMs。

无论任何用户,只要用简单的prompt指令,就能创建属于自己的GLM个性化智能体。

张鹏还在现场宣布,智谱智能体中心也同时上线。

等等……既然GLMs有了,GLM Store是不是也不远了?!

好问题。量子位当然第一时间拿这个问题问了张鹏。

得到的答案是:

紧接着,我们锲而不舍地抛出了新的问题:

如果说之前的行为都是在摸着OpenAI过河,那么现在,智谱的基座模型喊出对标GPT-4,接下来的路会怎么走?

张鹏稍稍透露了那么一点,主要是在三个方向发力。

  • 超级智能

  • 超级对齐

  • 具身智能

其中比较值得拿出来说道说道的,是“超级对齐”这一点。

这里回顾一下有关超级对齐的前情提要:去年7月,OpenAI首次提出超级对齐这一概念,宣布成了一个新的研究团队,在未来4年投入20%算力,用AI监督AI的方式,解决超级智能AI与人类意图对齐的问题。

“我个人觉得,在(超级对齐)这件事情上,可能我们认知还没有那么深,或者说大家对这事情的认知不太一致。”张鹏说。

在他看来,OpenAI创始人之一Ilya想做到的超级对齐,是想要在AI从诞生之时起,就从底层保持着对人类最大限度的爱,“他是要去探寻本源。自训练、自学习这样的能力实际上是对世界知识的一种压缩和表示,所以实现这个目标,需要从知识或数据层面来解决。”

简单来说,Ilya有关超级对齐的研究,可以等价为尝试开黑盒,然后设法从AI智能产生的那一刻起,就和人类意图对齐。

而张鹏表示,他个人在现阶段更倾向于另一派的观点,即从行为主义角度出发。

“超级对齐究竟是什么?想要对齐一个东西,这东西都还不存在,咋对齐?对齐啥呢?”

从行为学角度考虑,就不用考虑开黑盒的问题,研究者只需要像教育孩子一样,先观察小孩的行为。看到AI行为是错的,就给一巴掌;行为是对的,就给一颗糖。

想要成为“AGI元年”,2024需要面对什么?

2024年,短短半个月期间,GPT上线了GPT Store,智谱推出了GLM-4……

而这一年才刚刚开始。

热闹非凡的百模大战打了一年,有的玩家已经偃旗息鼓了,但可以肯定,OpenAI会带领GPT继续迭代,智谱或许也会继续以3-4月更新一次基座模型的速度向前推进,国外的Anthropic、Mistral AI、Google,国内的零一万物、MiniMax等都会如此。

那么,如果按照业界默认,称刚刚过去的2023年为大模型元年的话,2024想要“化身”AGI元年,正面临哪些挑战?

去年3月,在量子位举办的AIGC峰会上,张鹏认为外界环境带来的三大挑战是人力、成本和算法。

当现在把这个问题丢到张鹏面前时,他的看法是,加入到大模型研究中的人已经极大丰富了,困境有所缓解;取代它位列新三大困境之一的则是“环境”。

一方面,挑战者能不能有足够的敏锐度,从环境中寻找并掌握突破口?

张鹏用他前段时间在某群里刷到的一个视频作为形象的例子,那个视频展示的是许多人小时候玩儿过的小球消砖块游戏。

最佳情况是把球从正好的角度打进砖块包围的缺口,然后形成数次拐弯,消灭掉所有的砖块。

实际上这个机率很小,很多次都会和“正好”的角度擦肩而过;或者看似瞄准了缺口,又不幸地被挡住弹了回来。

终于有一天,你打进了缺口,然后什么都不用干,自然而然所有的砖块都被消除了。

另一方面,在不断试错、不断失败的过程中,市场乃至整个社会对技术的耐心能够持续多长时间?

如果市场失去耐心,大模型这样一个消耗很大资源要做的事,立刻会陷入玩不下去的窘境。

然而玩弹球砖块游戏,很多人并不能坚持到砖块全部消除。

“前面的试错、铺垫是难以忍受的。就像面对科技创新,大家期待的都是最后的爆发时刻。”


返回网站首页

本文评论
微软副总裁:必应搜索的聊天机器人正在增加来源网站的点击率 而非取代发布者网站
7月14日消息:微软的 Bing 聊天机器人等生成式人工智能(AI)聊天机器人似乎会让用户不再访问其他网站,因为这些机器人可以直接回答问题,那么为什么还需要点击链接呢?然而,根据微软负...
日期:07-14
特斯拉全球工程总部于加州正式成立 将成为研发主要地点「特斯拉总部在哪个洲」
2月24日消息:特斯拉周三晚些时候宣布,在加州硅谷的一栋曾经属于惠普公司的大楼内设立新的工程总部。台积电要涨价无障碍地图app据特斯拉表示,该公司的全球总部仍位于得克萨斯...
日期:02-25
飞书多维表格下载「包括多维表格、飞书集成平台等 飞书发布业务三件套」
【】3月22日消息,飞书今日举办春季未来无限大会,发布了以“多维表格”、“飞书应用引擎”、“飞书集成平台”组成的“业务三件套”。从2020年至今,飞书相继发布了飞书Office、...
日期:10-06
男孩玩氢气球砸到吹风机爆燃 妈妈被严重烧伤:画面触目惊心「孩子玩氢气球爆炸视频」
近日,广东揭阳一位小孩在家中玩气球,孩子举起气球砸下时刚好碰到使用过的疑发热的吹风机。随后瞬间爆燃,妈妈被烧伤。事后,孩子妈妈称,烧伤一个多星期后仍然看着触目惊心,多处皮肤...
日期:06-17
消息称苹果已考虑从部分 iPhone 14 系列机型中移除 SIM 卡插槽「iphone 12 sim卡槽」
IT之家 9 月 5 日消息,据彭博社的 Mark Gurman 称,苹果公司内部已经讨论了在明年之前推出部分没有 SIM 卡插槽的 iPhone 的想法。Gurman 在他最新的 Power On 时事通讯中表示,...
日期:09-07
麋鹿请假,圣诞老人的礼物,让镭速云传极速送达!
  嗖的一下   就到2019年年底了   圣诞节也如约而至   浪漫的气氛已经弥漫开来~   正所谓,无礼物,不圣诞   听说圣诞老人的麋鹿请假了   镭厉风行,速达全球  ...
日期:04-16
虚拟人+大模型重焕元宇宙青春,微美全息(WIMI.US)颠覆性技术巩固地位
最近,阿里、百度、商汤等一众国内IT巨头,“不约而同”地发布了各自的AI大模型, 国内AI产业似乎正式进入爆发期。相对的,虚拟人概念似乎成了过气网红,长久以来的需求问题一直没得...
日期:04-19
一季度GDP同比增长4.5%  第三产业增加值为165475亿元_第1季度gdp增速
2023年一季度国民经济运行情况正式公布。据初步核算,国内生产总值为284997亿元,按不变价格计算同比增长4.5%,环比增长2.2%。在分产业观察下,第一产业增加值为11575亿元,同比增长3...
日期:04-18
SiFive发布两款5nm RISC-V架构CPU:单位性能反超ARM「基于riscv的超标量处理器设计」
本周,专注于RISC-V架构芯片设计的SiFive公司发布两款新品,分别是600系列的P670和400系列的P470。它们的共同点是均采用5nm工艺制造,新增虚拟化IO技术和矢量加密扩展(RISC-V首发),...
日期:11-12
老虎证券一季度超五成新增入金客户来自海外 净利润同比大增21倍
  美国东部时间5月25日盘前,知名美港股券商老虎证券(NASDAQ:TIGR)公布了截至2021年3月31日的第一季度未经审计财报。财报显示,老虎证券第一季度总营收为8128万美元,同比增长2...
日期:02-15
12月13日0时起,“通信行程卡”服务正式下线
  通信行程卡官微消息,为深入贯彻党中央、国务院关于进一步优化新冠肺炎疫情防控措施,科学精准做好防控工作的决策部署,根据国务院联防联控机制综合组有关要求,12月13日0时起,...
日期:12-12
电竞人的终极归宿,合创V09雷蛇版好用又好玩「雷蛇合生汇」
什么样的新车能够打动年轻人?有人说需要可以看视频的大屏幕,有人说需要舒适的大空间,有人说需要颠覆性的创意设计。而合创V09 雷蛇版认为,这些都不够,还需要一个击中人心的长板,那...
日期:05-24
人类和鲸鱼首次成功“对话”,人鲸交流不再是梦,还能帮找外星人?
据科技日报12月18日报道,美国科学家利用水下扬声器与一头名叫吐温(Twain)的座头鲸成功“交谈”,并记录了回拨给座头鲸的“联系电话”。这是人类和鲸鱼之间首次成功“对话”,为人...
日期:12-20
本地生活3.0:抖音送外卖,美团刷视频「抖音直连外卖团购平台」
文章目录 内测角力 要时间、要变现 本地生活进入全域时代 声明:本文来自于微信公众号 新熵(ID:xinshangxz),作者:古廿,授权转载发布。「新熵」于2月初发现,美团App首页一级入口的...
日期:02-10
​视频号电商新动作!
声明:本文来自于微信公众号见实(ID:jianshishijie),作者:见实,授权转载发布。近日,视频号在其商业化道路上又迈出了重要步伐。从近日更新来看,尤其对视频号电商做出了新的政策调整...
日期:07-31
小米Civi 3 1TB上市:机皇只要2999元
小米Civi 3推出了16GB 1TB版本,售价为2999元。具备非常出色的前置摄像系统,其前置摄像头采用双摄组合。其中包括一个视角为78度、26mm等效焦距的美人镜,配备F2.0大光圈,可提供充...
日期:06-13
工信部:深入推进工业互联网安全分类分级管理_工业互联网安全功能架构充分考虑了什么
通信世界网消息(CWW)7月18日,工业和信息化部网络安全管理局网络安全处四级调研员王梅芳出席2023中国互联网大会——新基建环境下工控安全与可控分论坛并致辞。王梅芳表示,当前,以...
日期:07-21
汪顺被问颜值时笑出褶子:颜值自己不太好评价_汪顺 帅气
9月25日消息,据媒体报道,在杭州亚运会上,汪顺夺得男子200米个人混合泳金牌。汪顺接受记者采访时被问颜值,他笑出褶子,并表示这几天拒绝外界打扰,等比赛结束了再一睹别人对我的评价...
日期:09-26
更具情感的大模型,会给人类带来什么?_更具情感的大模型,会给人类带来什么好处
声明:本文来自于微信公众号 AI新智能(ID:alpAIworks),作者:举大名耳,授权转载发布。当下,如火如荼的大模型热潮,已经蔓延了数月之久,在各种关于大模型的测评中,优先级最高,也最被人看...
日期:07-10
沃尔沃主动拒绝马斯克:FSD开放也不用、我们自己有_沃尔沃从未有过死亡
快科技7月22日消息,不给马斯克面子的车企出现了,它正是沃尔沃。前不久,马斯克扔下车圈核弹,表示将开放授权FSD给有需要的车企使用,他更是于近期表示,已经和一家主流厂商在进行洽谈...
日期:07-22