您的位置:首页 > 互联网

开源模型打败GPT-4!LLM竞技场最新战报,Cohere Command R+上线

发布时间:2024-04-21 12:19:12  来源:互联网     背景:

声明:本文来自于微信公众号 新智元(ID:AI_era),作者:新智元,授权转载发布。

近日,LLM竞技场更新了战报,Command R+推出不到一周,就成了历史上第一个击败了GPT-4的开源模型!目前,Command R+已经上线HuggingChat,可以免费试玩。

GPT-4又又又被超越了!

近日,LLM竞技场更新了战报,人们震惊地发现:居然有一个开源模型干掉了GPT-4!

这就是Cohere在一周多前才发布的Command R+。

图片

排行榜地址:https://huggingface.co/spaces/lmsys/chatbot-arena-leaderboard

截至小编码字的这个时间,竞技场排行榜更新到了4月11号,Command R+拿到了2.3万的投票,

综合得分超越了早期版本的GPT-4(0613),和GPT-4-0314版本并列第7位,——而它可是一个开源模型(不允许商用)。

图片

这边建议Altman,不管是GPT-4.5还是GPT-5,赶紧端上来吧,不然家都被偷没了。

不过事实上OpenAI也没闲着,在被Claude3一家屠榜,忍受了短暂的屈辱之后,很快就放出了一个新版本(GPT-4-Turbo-2024-04-09),直接重归王座。

这也导致排行榜上大家的排名瞬间都掉了一位,本来Command R+在9号的版本中是排位全球第6的。

——大哥你不讲武德!

图片

尽管如此,Command R+作为首个击败了GPT-4的开源模型,也算是让开源社区扬眉吐气了一把,而且这可是大佬认可的堂堂正正的对决。

图片

Cohere的机器学习总监Nils Reimers还表示,这还不是Command R+的真实实力,它的优势区间是RAG和工具使用的能力,而这些外挂能力在LLM竞技场中没有用到。

图片

事实上,在Cohere官方将Command R+描述为RAG优化模型。

割麦子和最大的开源模型

毫无疑问,Cohere是当前AI领域的独角兽,而它的联合创始人兼CEO,正是大名鼎鼎的Transformer八子之一的割麦子(Aidan Gomez)。

图片

作为Transformer最年轻的作者,一出手就是最大规模的开源模型:

图片

正面对战claude-3, mistral-large, gpt-4turbo;

1040亿参数;

使用多步骤工具和RAG构建;

支持10种语言;

上下文长度为128K;

基于上下文的引用和响应;

针对代码能力进行了优化;

提供4位和8位的量化版本。

Command R+专为实际企业用例而构建,专注于平衡高效率和高精度,使企业能够超越概念验证,并通过AI进入生产。

图片

huggingface地址:https://huggingface.co/CohereForAI/c4ai-command-r-plus

量化版本:https://huggingface.co/CohereForAI/c4ai-command-r-plus-4bit

——当然了,1040亿的参数量,相比于前段时间Musk开源的Grok-1(3140亿)还差了一些,但Command R+并非Grok那种MoE架构,

所以这1040亿参数是实打实的完全用于推理,而Grok-1的活跃参数为860亿——从这个角度来看,说Command R+是目前规模最庞大的开源模型也不为过。

作为Command R的进化版本,进一步全面提高了性能。主要优势包括:

-高级检索增强生成(RAG)与引用以减少幻觉

-10种主要语言的多语言覆盖,支持全球业务运营

-工具的运用以自动化复杂的业务流程

在性能优于竞品的同时,Command R+还提供了相对低得多的价格。

目前,Cohere已经与多家大厂合作,并将LLM部署到了Amazon Sagemaker和Microsoft Azure。

图片

上面左图展示了Azure上可用的模型,在三个关键功能方面的性能比较(模型在基准测试中的平均得分):多语言、RAG和工具使用。

右图比较了Azure上可用模型的每百万个输入和输出token成本。

行业领先的RAG解决方案

企业想通过专有数据定制自己的LLM,就必然绕不开RAG。

Command R+针对高级RAG进行了优化,可提供高度可靠、可验证的解决方案。

新模型提高了响应的准确性,并提供了减轻幻觉的内联引用,可帮助企业使用AI进行扩展,以快速找到最相关的信息,

支持跨财务、人力资源、销售、营销和客户支持等业务职能部门的任务。

图片

上面左图是在人类偏好上的评估比较结果,包括文本流畅度、引文质量和整体效用,其中引文是在连接到源文档块的摘要上衡量的。

这里使用了250个高度多样化的文档和摘要请求的专有测试集,包含类似于API数据的复杂指令。基线模型经过了广泛的提示设计,而 Command R+使用RAG-API。

右图衡量了由各种模型提供支持的多跳REACT代理的准确性,可以访问从维基百科(HotpotQA)和互联网(Bamboogle、StrategyQA) 检索的相同搜索工具。

HotpotQA和Bamboogle的准确性由提示评估者(Command R、GPT3.5和Claude3-Haiku)的三方多数投票来判断, 以减少已知的模型内偏差。

这里使用人工注释对一千个示例子集进行了验证。StrategyQA的准确性是使用以是/否判断结尾的长格式答案来判断的。

使用工具自动执行复杂流程

作为大语言模型,除了摄取和生成文本的能力,还应该能够充当核心推理引擎:能够做出决策并使用工具来自动化需要智能才能解决的困难任务。

为了提供这种能力,Command R+提供了工具使用功能,可通过API和LangChain访问,以无缝地自动化复杂的业务工作流程。

企业用例包括:自动更新客户关系管理(CRM)任务、活动和记录。

Command R+还支持多步骤工具使用,它允许模型在多个步骤中组合多个工具来完成困难的任务,——甚至可以在尝试使用工具并失败时进行自我纠正,以提高成功率。

图片

上图为使用Microsoft的ToolTalk(Hard)基准测试,和伯克利的函数调用排行榜(BFCL)评估对话工具使用和单轮函数调用功能。

对于ToolTalk,预测的工具调用是根据基本事实进行评估的,总体对话成功指标取决于模型召回所有工具调用和避免不良操作(即具有不良副作用的工具调用)的可能性。

对于BFCL,这里使用了2024年3月的版本,在评估中包含了错误修复,并报告了可执行子类别的平均函数成功率得分。通过额外的人工评估清理步骤验证了错误修复,以防止误报。

多语言支持

Command R+在全球业务的10种关键语言中表现出色:中文、英语、法语、西班牙语、意大利语、德语、葡萄牙语、日语、韩语、阿拉伯语。

图片

上图为FLoRES(法语、西班牙语、意大利语、德语、葡萄牙语、日语、韩语、阿拉伯语和中文)以及WMT23(德语、日语和中文)翻译任务的模型比较。

此外,Command R+还具有一个优秀的分词器,可以比市场上其他模型使用的分词器更好地压缩非英语文本,能够实现高达57%的成本降低。

图片

上图比较了Cohere、Mistral和OpenAI分词器为不同语言生成的token数量。

Cohere分词器生成的表示相同文本的token要少得多,尤其在非拉丁文字语言上减少的幅度特别大。比如在日语中,OpenAI分词器输出的token数量是Cohere分词器的1.67倍。

价格

图片

网友评价

Command R+的开源点燃了网友们的热情,网友表示:GPT-4级性能,在家运行。

图片

不知道这3.15G的内存占用是什么情况?

图片

感谢Cohere做了Mistral没有做的事情。

图片

根据我有限的初始测试,这是目前可用的最好的模型之一......而且它绝对有一种风格,感觉很好。感觉不像是ChatGPT主义的填充模型。

图片

——是时候为自己加一块显卡了!

上线HuggingChat

目前,Command R+已经上线HuggingChat(https://huggingface.co/chat),最强开源模型,大家赶快玩起来!

图片

问:等红灯是在等红灯还是等绿灯?

图片

解释一下咖啡因来自咖啡果:

图片

请回答弱智吧问题:陨石为什么每次都能精准砸到陨石坑?

图片

我想配个6000多的电脑,大概要多少钱?

图片

HuggingFace联创Thomas Wolf曾表示,最近在LLM竞技场上的情况发生了巨大变化:

图片

Anthropic 的Claude3家族成了闭源模型的赢家(曾经);而Cohere的Command R+是开源模型的新领导者。

2024年,在开源和闭源两条道路上,LLM都发展迅猛。

最后,放上两张LLM竞技场的当前战况:

模型A在所有非平局A与B战斗中获胜的比例:

图片

每种模型组合的战斗计数(无平局):

图片

idc 手机出货量

参考资料:

https://venturebeat.com/ai/coheres-command-r-now-available-on-huggingchat/

https://twitter.com/lmsysorg/status/1777630133798772766


返回网站首页

本文评论
整天吃汉堡、薯条、可乐也能减肥?是真的哦!「整天吃汉堡,薯条,可乐也能减肥?是真的哦吗」
最近国外出了一个新闻,说有位叫 Kevin Maginnis 的男子, 57 岁 200 多斤,连续 100 天只吃麦当劳,居然瘦了 52 斤,连啤酒肚都没了!不是说汉堡+薯条+可乐组合是“垃圾食品”吗?怎么可...
日期:06-29
淘宝宣布批量设置发货时间功能升级 单次可修改500条数据_淘宝商家修改发货时间
11月25日 消息:日前,淘宝平台宣布批量设置发货时间功能升级,支持卖家通过excel方式批量设置发货时间,单次最多可修改500条以内的数据,操作更便捷。一、入口:千牛卖家工作台-商品...
日期:11-27
Gen-2颠覆AI生成视频!一句话秒出4K大片,网友:改变游戏规则
金磊 克雷西 发自 凹非寺量子位 | 公众号 QbitAI这,绝对称得上是生成式AI进程中的里程碑。就在深夜,Runway家标志性的AI视频生成工具Gen-2,迎来了“iPhone时刻”般的史诗级更新...
日期:11-04
国家发改委:支持5G、AI等新技术融入民生设施,弥合数字鸿沟「发改委5G」
  记者 周頔  9月26日,国家发展改革委就基础设施建设有关情况举行专题新闻发布会。会上有媒体提问:近期国务院常务会议几次研究稳投资工作,无论政策性开发性金融工具还是设...
日期:09-26
分析师预计Netflix一季度净增200万会员 低价订阅非常“香”?
北京时间4月18日早间消息,据报道,美国流媒体巨头Netflix即将发布财报,其会员是增长还是下滑引发外界关注。华尔街分析师最新预测显示,Netflix今年一季度可能会增加约200万付费会...
日期:10-03
阿斯顿马丁吉普和轿车「在一起了!吉利汽车入股阿斯顿马丁:系英国超豪华性能品牌」
9月30日,浙江吉利控股集团在杭州宣布,已完成对英国超豪华性能品牌阿斯顿马丁拉贡达国际控股7.60%的股份收购。一加nord是什么手机网吧为什么用身份证吉利控股集团CEO李东辉表...
日期:10-05
英特尔顶级显卡「英特尔推出新款游戏显卡,以性价比挑战英伟达」
记者 | 彭新9月28日,英特尔在其技术峰会上宣布,将于下个月开始销售面向游戏玩家的新款游戏显卡。该举动有望打破英伟达和AMD对于游戏图形处理器(GPU)市场的垄断。美的商城怎么返...
日期:10-08
勇士皆传奇!4399游戏盒《传奇世界》同样精彩
  4399游戏盒《传奇世界》,由盛大网络服务运营,是一款奇幻动作类MMORPG网络游戏。这款网游最大的卖点就是为游戏玩家们构建起了一个完整的虚拟社会体系,每一个玩家都能在游...
日期:07-23
红魔4K电竞显示器预售:支持毫米波投屏_红魔有线投屏
今年7月,主打游戏手机的红魔推出了全球首款4K160Hz MiniLED显示器,经过几个月的等待,该显示器将于今日上午10:00正式开启预售,不过目前官方并未公布售价。iPhone 8发布会奔驰eqs...
日期:10-28
成都滴滴出行科技公司拟注销?滴滴:非成都运营主体,公司运营一切正常
封面新闻记者 蔡世奇近日,有消息称“成都滴滴出行科技有限公司”拟注销。华云数据融资三星电池鼓包还能用吗对此,7月4日晚,滴滴出行官方微博发布声明回应,滴滴在成都的运营主体...
日期:07-05
比亚迪:中考、高考考生无限次免费乘坐云巴「比亚迪进高考题目」
快科技6月7日消息,一年一度的高考正在进行中,中考也即将来临。重庆云巴助力中高考,为考生开通免费绿色通道。考生只需在进站的时候向云巴工作人员出示中、高考准考证,即可无限次...
日期:06-07
亚马逊加入微软和谷歌的竞赛,推出生成式AI全家桶!
声明:本文来自于微信公众号CSDN(ID:CSDNnews)),作者:陈静琳,授权转载发布。ChatGPT 这样的生成式AI应用程序引起了广泛的关注和想象,在这样的大模型技术热潮下,从不跟风的亚马逊 A...
日期:04-18
比亚迪 u0167「比亚迪仰望U7亮相:百万级旗舰轿车 U9同款前灯」
快科技1月10日消息,继仰望U9(跑车)、仰望U8(越野车)之后,仰望U7今天也正式亮相了。外卖平台slogan比亚迪对其定位是百万级新能源旗舰轿车”,价格也会在百万元左右。手机恢复出厂设...
日期:01-10
华硕新款灵耀 X 14 上架,触控板副屏设计,首发 8799元_华硕(ASUS) 灵耀X双屏 11代酷睿14英寸轻薄笔记本
IT之家 9 月 14 日消息,华硕新款灵耀X 14 现已上架官方商城,采用了 14 英寸 2.8KOLED屏,还拥有触控板副屏设计,首发价 8799 元。IT之家了解到,该机搭载了英特尔 12 代酷睿 i7-126...
日期:09-22
商汤科技发布“元萝卜光翼灯” 搭载AI纠正坐姿提醒、AI专注力检测等功能
【网易科技1月4日报道】近日,商汤科技推出旗下智能台灯产品——元萝卜光翼灯。据悉,元萝卜在新品发布会上宣布,元萝卜光翼灯的AI技术创新使智能台灯行业步入3.0时代,具备更多AI...
日期:01-05
在FIRST惊喜电影展,邂逅一场致敬艺术的视觉盛宴
电影作为第七艺术,为时光雕刻出独有面貌 ,也为不同年代的生活和人群烙上不同印记。无论是 70 年代的热血、 80 年代的浪漫、 90 年代的青春,那些关于生命意义的追问、青葱岁月...
日期:11-04
惠普明年将发布新的Palm手机和升级WebOS_惠普收购palm
  据PreCentral网站本星期披露称,最近用12亿美元收购处于困境之中的智能手机厂商Palm的惠普正计划在明年发布新的Palm智能手机以及更新 的WebOS移动操作系统。   Palm在...
日期:07-30
研发投入有增无减 明星机构陆续加仓 互联网巨头二季报看点多多
部分互联网龙头企业研发投入情况  郭晨凯 制图  ◎记者 温婷  8月25日,腾讯在港交所公告,公司该日回购了110万股股份,耗资约3.52亿港元,这是其8月19日以来的第五次回购。2...
日期:08-27
详解Sora,为什么是AGI的又一个里程碑时刻?_sora在外文里是什么意思
声明:本文来自于微信公众号 光锥智能(ID:guangzhui-tech),作者:郝 鑫,授权转载发布。2024年伊始,OpenAI再向世界扔了一枚AI炸弹——视频生成模型Sora。一如一年前的ChatGPT,Sora...
日期:02-19
开电车回东北过年:18个小时充了7次电 总花费1700元_东北电动汽车冬天续航
快科技2月7日消息,往年春运时,电动车在旅途中都会发生一些意料之外的插曲,今年也不例外,叠加南方多地冻雨、暴雪影响,让开电动车回家过年的车主们,旅途中增加了更多不确定性。华为...
日期:02-08