您的位置:首页 > 互联网

国产比较好的模型「国产大模型竞技场首超GPT-4o!零一万物GLM共同跻身Top10」

发布时间:2024-10-16 20:14:22  来源:互联网     背景:

声明:本文来自于微信公众号量子位,授权转载发布。

国产大模型首次在公开榜单上超过GPT-4o!

就在刚刚,“大模型六小强”之一的零一万物正式对外发布新旗舰模型——Yi-Lightning(闪电)。

在大模型竞技场(Chatbot Arena)上,Yi-Lightning性能直冲总榜单并列第6,数学分榜并列第3,代码等其它分榜也名列前茅。

总成绩几乎与马斯克最新xAI大模型Grok-2-08-13持平,超越GPT-4o-2024-05-13、GPT-4o-mini-2024-07-18、Claude3.5Sonnet等顶流。同时,国内清华系大模型公司智谱AI的GLM-4-Plus也杀进了总榜,位居第9位。

该榜单结果来自全球累积超千万次的人类用户盲测投票。

前段时间大模型竞技场还刚刚更新了规则,新榜单对AI回答的长度和风格等特征做了降权处理,分数更能反映模型真正解决问题的能力。

这次Yi-Lightning杀出重围,Lmsys团队特意发帖子,称这是竞技场上的大新闻:

大模型竞技场总榜第六、国产第一

细看大模型竞技场分类榜上的“赛况”,Yi-Lightning各项能力都排在前头。

在中文能力上,Yi-Lightning和GLM-4-Plus两个国产大模型都名列前位。

Yi-Lightning跃居并列第二,和o1-mini相差无几。

数学能力,Yi-Lightning和Gemini-1.5-Pro-002并列第3,仅次于o1-preview、o1-mini。

代码能力Yi-Lightning排名并列第4。

另外在Hard Prompts和Longer Query分榜,Yi-Lightning也都排在第4位。

最好的国产模型

最后同样值得关注的是,竞技场新功能风格控制过滤,确保分数反映模型真正解决问题的能力,而不是用漂亮的格式、增加回答长度。

在对长度和风格等特征做了降权处理后,所有模型分数均有下降,Yi-Lightning排名变化不大,整体还与GPT-4o、Grok-2同一梯队。

发布会上,零一万物创始人兼CEO李开复博士展示了Yi-Lightning在不同场景上的能力。

Yi-Lightning主打一个“推理速度更快,生成质量更好”。

相比上半年Yi-Large,Yi-Lightning首包速度提升1倍,推理速度也提升了4成。

航母导弹射程

1283公里等于多少米

苹果手机app怎样改成中文

像是翻译下面这种文学作品,Yi-Lightning不仅速度更快:

而且用词更精准,更具文学色彩:

那么Yi-Lightning是如何做到的?

好用还得极速

Yi-Lightning采用MoE混合专家模型架构。

底层技术上,Yi-Lightning在以下方面进行了提升。

首先是优化混合注意力机制(Hybrid Attention),只在模型的部分层次中将传统的全注意力(Full Attention)替换为滑动窗口注意力(Sliding Window Attention)。

由此以来,模型在保证处理长序列数据高性能表现的同时,还能大大降低推理成本。

Yi-Lightning还引入了跨层注意力(Cross-Layer Attention, CLA),允许模型在不同的层次之间共享键(Key)和值(Value)头,减少对存储需求。

这使得Yi-Lightning能在不同层次之间更有效地共享信息。

总的来说,KV cache缩小了2-4倍,同时将计算的复杂度从O(L²)降至O(L)。

其次,Yi-Lightning还采用了动态Top-P路由机制。

也就是说,Yi-Lightning可以根据任务的难度动态自动选择最合适的专家网络组合——

训练过程中会激活所有专家网络,使模型能学习到所有专家知识;而推理阶段,根据任务的难度,模型会选择性激活更匹配的专家网络。

另外,之前有一些传言称国内大模型“六小强”,有一些已经不做预训练了,李开复博士这次在发布会上直接“辟谣”:

零一万物绝不放弃预训练。

而且在模型预训练阶段,团队还积累了丰富的多阶段训练方法,将整个训练分为两块,一块做好以后就把它固定起来,然后在这个固定的模型上再做后段训练。

训练前期,更注重数据多样性,使得Yi-Lightning尽可能学习不同的知识;训练后期更重内容更丰富、知识性更强的数据。

同时团队还在不同阶段采用不同的batch size和LR schedule保证训练速度和稳定性。

李开复博士还表示,零一万物开发模型讲究“模基共建”,也就是共建模型和基础架构。

模型的训练、服务、推理设计,与底层的AIInfra架构和模型结构必须高度适配。

这样做的目的,不仅是让模型更好,而且让它在推理的时候能够更便宜。

国产模型厂

再加上以上种种抬升“性价比”的技术加持,所以Yi-Lightning这次也是打到了白菜价——

0.99元每1M token

在中文等方面,Yi-Lightning比肩OpenAI的o1-mini,o1-mini的定价是每百万输入3美元,每百万输出12美元。

Yi-Lightning每百万token只需0.99RMB也是打到了骨折。

但李开复博士表示,即便这样也:不亏钱。

除了发布新模型,零一万物这次还首发了AI2.0数字人方案。

目前该数字人已接入Yi-Lightning,实时互动效果相比以往更强更自然了,belike:

最后谈起和国外头部大模型的差距,李开复博士表示这次Yi-Lightning的排名证明了国产大模型跟硅谷最顶尖模型的差距缩小到了五个月。

去跟追上美国最顶尖的模型,缩短这个时间差非常困难,要付出很大的努力和有独特的打法。在国内不少公司都在努力,“模基共建”则是零一万物自己摸索的独特路径。

参考链接:

[1]https://x.com/lmarena_ai/status/1846245604890116457

[2]https://x.com/01AI_Yi/status/1845776529185476613


返回网站首页

本文评论
刘德华周杰伦同时开演唱会「刘德华、周杰伦以后开线上演唱会可能没那么容易了」
  持续火爆、且规模可观的在线演出市场,将面临新的监管和合规要求。  文|张剑;编辑|郭丽琴微信十年用户红包封面清华第一个人工智能学生  来源:财经E法;  今年以来,周杰...
日期:10-02
macbook pro什么时候上新「消息称苹果新一代MacBook Pro再度推迟 最迟WWDC上推出」
1月13日消息,据国外媒体报道,在去年6月份的全球开发者大会上推出搭载M2芯片的13英寸MacBook Pro之后,外界预计苹果仍会像M1系列芯片一样,后续将推出搭载M2 Pro和M2 Max芯片的14...
日期:01-13
国际奥委会 巴赫「国际奥委会主席巴赫:阿里AI技术将巴黎奥运转播带到新高度」
通信世界网消息(CWW)7月26日,巴黎奥运会开幕在即,国际奥委会主席巴赫在国际转播中心举行的活动中表示,2024巴黎奥运会展现了奥运转播的未来,广泛应用的阿里AI技术正在将巴黎奥运转...
日期:07-26
从风靡全网的“沉浸式回家”透析当下“新家电”趋势变化
  文 丨 周文猛  编辑 丨 韩大鹏  “滴答”刷开指纹锁、轻触门旁电灯开关、细语唤醒扫地机器人……在视频中,女孩们正在邀请你“云独居”小豪宅。  这是风靡全网的...
日期:09-26
微信输入法上线“一键AI问答”功能 基于腾讯混元大模型_微信输入法神句配图
6月26日 消息:微信官方近日宣布,其输入法软件已迎来全新升级,正式上线了一键AI问答”功能,该功能基于腾讯混元大模型,为用户提供前所未有的智能交互体验。用户只需在微信聊天框...
日期:06-26
讯飞翻译笔生词导出_如何快速查生词?讯飞翻译笔让孩子的学习更高效
  前几天我家孩子的期中考试成绩下来了,他考得不错,总分和排名都位居班级前列,我也很替他高兴,不过看到了他的英语成绩之后,我不禁开始担心起来。我家孩子今年初二,其它学科的...
日期:07-16
搜索标签_三搜索巨头推动统一格式标签标识网站内容
  据国外媒体报道,谷歌、微软和雅虎正在合作,推动用统一格式的标签标识网站内容,希望搜索引擎能因此更好地对搜索结果进行分类和对搜索结果进行排名。   这几个搜索领域的...
日期:07-28
罗永浩和他的小伙伴「失去罗永浩后,交个朋友急求上市」
撰文丨李松月来源丨 电商头条罗永浩后退,交个朋友“向钱”“失去”罗永浩后,交个朋友积极拥抱资本。近日,世纪睿科集团发布公告称,其子公司“杭州世纪睿科”与抖音电商签订了一...
日期:09-07
赛力斯售价「和蔚小理越拉越大!赛力斯7月销量4240台:今年累计仅3万」
快科技8月1日消息,赛力斯集团发布了7月产销快报,在刚刚过去的这个月,其总销量为6934台,其中赛力斯品牌(主要为AITO问界)仅卖出了4240台,同比暴降45.69%,今年以来累计总销量刚刚突破3...
日期:08-02
芒果快乐购的私域:10万会员年贡献5亿产值 超6成复购_湖南快乐芒果互娱科技有限公司
声明:本文来自于微信公众号 见实(ID:jianshishijie),作者:高祥,授权转载发布。-10万会员,生命周期长达10年+。-复购率60%~70%造就5亿年产值。-团队盈利能力25%。这些数据单拿出一...
日期:11-27
智慧交通落地的“技术范式”:科技驱动出行效率变革_城市智慧交通创新方案
  “我们无法在研究的一开始就界定价值,而是必须在研究的进程中发现价值。”CUNY教授、剑桥大学博士大卫·哈维(David Harvey)在《资本的限度》中提到。   诚如斯言,技术...
日期:07-14
女子沉迷《羊了个羊》 丈夫报案求助“担心她被骗”:官方支招「买羊被骗报警有用吗?」
要说当前最火的游戏,肯定得是《羊了个羊》了。除了大家各种吐槽交流通关体会,一些不法分子也盯上了它。据西部决策报道,近日在浙江嘉兴,男子报案称妻子小刘沉迷玩《羊了个羊》,他...
日期:10-04
跨境bc是什么「跨境风口的B面:亏损、韭菜与逃离」
声明:本文来自微信公众号“光子星球”(ID:TMTweb),作者:何芙蓉,编辑:吴先之,,授权转载发布。“国内市场竞争越来越激烈,我们也想去挖掘一些新的市场。”赵乐是江苏一位日用品厂家。...
日期:05-23
问界M5推出限时购车优惠:新款M5智驾版预计5月交付_金康问界m5
快科技3月2日消息,华为鸿蒙智行官微今天发文宣布,问界M5系列自2022年上市以来,累计交付已超过12万辆。同时还在2023年度新能源中型SUV质量排行中位列第一,深受广大用户好评。iph...
日期:03-02
魅族20t「魅族618终极战报公布:魅族20 PRO好评率第一」
魅族公布了2021年6月18日的“618”购物节销售终极战报。据数据显示,魅族旗下手机在各大电商平台均取得不俗成绩,其中魅族京东618全周期销售额同比增长500%,并且天猫和抖音等其...
日期:06-19
日本又一核电站发生冷却水泄漏 电力公司回应:不会对外界有影响
快科技4月27日获悉,日本当地媒体NHK称又有核电站发生了泄露,不过影响不大。深圳自动驾驶法规马斯克成为全球首富据了解,26日夜间日本新潟县柏崎刈羽核电站5号机组内由于水管阀...
日期:04-27
戴尔PC要100%离开中国-完整时间表曝光_真着急_dellsun
在各大厂商中,戴尔一直是离开中国的急先锋。小米11的dxo评分三星手机印度工厂现在,有媒体曝光了戴尔所谓“去中化”的全套剧本和时间表,从上游IC采购到中下游周边再到整机组装,...
日期:09-18
飞猪酒店团购「飞猪旗舰店双11期间上线多款酒店新品」
10 月 28 日消息,双 11 期间,万豪、雅高、万达、洲际、凯悦等酒店集团相继在其飞猪官方旗舰店首发新品。同时,今年万达酒店及度假村有超过 20 款商品在飞猪双 11 售卖,其中北京...
日期:10-28
联想s810t_联想s810t怎么刷机
是一款备受欢迎的智能手机,其拥有许多出色的功能和性能,让用户能够享受到完美的使用体验。下面将从外观、性能、相机和价格四个方面介绍这款手机。首先,外观方面设计简约美观。...
日期:05-31
比OLED寿命更长!苹果将商用Micro LED屏幕「苹果led屏是什么意思啊」
快科技4月30日消息,据9to5Mac报道,Apple Watch目前使用的是OLED屏幕,苹果未来会过渡到更先进的Micro LED屏。有指纹识别吗苹果原计划是2024年年底商用Micro LED,因苹果遇到了新...
日期:04-30