您的位置:首页 > 互联网

467亿参数MoE追平GPT-3.5!爆火开源Mixtral模型细节首公开,中杯逼近GPT-4

发布时间:2023-12-13 01:25:31  来源:互联网     背景:


新智元报道

编辑:alan 好困

【新智元导读】今天,Mistral AI公布了Mixtral 8x7B的技术细节,不仅性能强劲,而且推理速度更快!还有更强型号的Mistral-medium也已开启内测,性能直追GPT-4。

今天,Mistral AI正式放出了Mixtral 8x7B的技术细节——

在大多数基准测试中,Mixtral的表现不仅优于Llama 2 70B,而且推理速度提高了整整6倍!

尤其是,它在大多数标准基准测试上与GPT-3.5打平,甚至略胜一筹。

新开源的Mixtral 8x7B自带了一些出色的表现:

比如可以很好地处理32k长度的上下文,支持英语、法语、意大利语、德语和西班牙语,且在代码生成方面表现出强大的性能。

另外,它可以微调为指令跟随模型(instruction-following model),在MT-Bench上获得了8.3分的好成绩。

467亿参数打平GPT-3.5

Mixtral是基于decoder-only架构的稀疏专家混合网络。

它的前馈模块从8组不同的参数中进行选择。在每一层网络中,对于每个token,路由器网络选择8组中的两组(专家),来处理token并将其输出累加组合。

这种技术增加了模型的参数数量,同时控制了成本和延迟,因为模型只使用每个token参数集总数的一小部分。

Mixtral有46.7B的总参数量,但每个token只使用其中12.9B参数。因此,Mixtral的实际执行速度和所需的成本,都只相当于一个12.9B的模型。

Mixtral根据从开放网络中提取的数据进行预训练——包括训练专家网络和路由模块。

性能实测

如下图所示,在大多数基准测试中,Mixtral与Llama 2 70B和GPT-3.5表现相当,其中的几项测试结果还要优于另外两个模型。


下图展示了模型生成质量与推理消耗成本的关系。与Llama 2相比,Mistral 7B和Mixtral 8x7B表现出自己高能效的优势。


更加详细的比较结果看下面的表格:


下面来看下模型在幻觉和偏见问题上的表现。

公平起见,为了避免微调或者偏好建模带来的影响,这里使用BBQ和BOLD来测试基本模型的性能。


从上面的结果可以看出,与Llama 2相比,Mixtral更真实,并且在BBQ基准上表现出更少的偏差。

另外,Mixtral在BOLD上表现出比Llama 2更积极的情绪,每个维度的差异相似。


上表中,在各种支持的语言上与Llama 2进行PK,Mixtral 8x7B可以说是精通法语、德语、西班牙语、意大利语和英语。

本次发布的Mixtral 8x7B Instruct和Mixtral 8x7B,已通过监督微调和直接偏好优化(DPO)进行了优化,并实现了指令的跟随。

在MT-Bench上,它的得分达到了8.30——是目前开源模型的最好成绩,性能可与GPT-3.5相媲美。

用户还可以通过提示的方式,进一步约束Mixtral,从而构建一些需要严格审核级别的应用程序。

另外,为了使社区能够使用完全开源的堆栈运行Mixtral,开发人员提交了对vLLM项目的更新,并集成了Megablocks CUDA内核以实现高效推理。

逼近GPT-4,中杯开启内测

与此同时,Mistral AI还开放了首个平台服务的测试版——la plateforme。

其中,平台提供了三个基于指令生成文本的聊天模型,以及一个嵌入模型。

目前,mistral-tiny和mistral-small已经正式发布,而性能更强的mistral-medium还处在测试阶段。

这些模型首先在开放网络抽取的数据上进行预训练,随后通过标注进行指令微调,并融合了最为有效的对齐技术(如高效微调、直接偏好优化)。

- Mistral-tiny

基于Mistral 7B Instruct v0.2的Mistral-tiny是最具性价比的模型,它在MT-Bench上的得分为7.6,但仅支持英语。

- Mistral-small

作为最新开源的模型,Mixtral 8x7B在MT-Bench上的得分达到了8.3,并支持英语、法语、意大利语、德语、西班牙语和代码生成。

- Mistral-medium

这是Mistral AI推出的最强开源模型,虽然目前还处在原型阶段,但它在主流评测上已经可以实现对GPT-3.5的碾压了!

Mistral-medium在MT-Bench上拿下了8.6的高分,同样支持英语、法语、意大利语、德语、西班牙语和代码生成。


- Mistral-embed

除了文本生成模型外,Mistral还提供了一个具有1024嵌入维度的嵌入模型。

在设计模型时,团队着重增强了它的检索功能,从而在MTEB上实现了高达55.26的检索得分。

从测试到全面开放

从今天起,任何人都可以注册并使用Mistral的API。

该API与其主要竞品类似,并且支持Python和Javascript客户端库,从而让用户可以方便地检查模型端点。

此外,Mistral还允许用户设置系统提示,以便在模型输出中实施更高级别的内容审查。这一功能对于某些应用来说非常重要。

不过,由于平台还处在测试阶段,使用过程中可能会出现一些小的问题。

致谢

感谢英伟达在TensorRT-LLM和Triton的整合,以及使专家稀疏混合模型与TRT-LLM兼容方面,提供的支持。

网友热议

鉴于Mistral-Medium的强力表现,有网友翻出了GPT-4在相关测试中的分数:



S32G芯片

结果,Mistral-Medium在Winogrande基准测试中优于GPT-4。

由于Mistral-Medium的能力貌似可与GPT-4一战,所以有网友自然开始比较两者的价格。



一加1安卓11

这位网友表示Mistral-Medium的价格约为GPT4-turbo价格的1/4,比自己预期的要昂贵。

对此,也有网友表示反对:恕我直言,这个价格很公道。小规模模型和GPT-3.5相当,并且更便宜。中等的价格则要高很多,但仍然只有GPT4-turbo的1/4。


另外也有网友讨论和猜测新的Mixtral 8x7B的技术内幕:


通过比较Mixtral 8x7B和Mistral 7B每层的相似度,这位网友指出Mistral可能已经大规模地进行了稀疏的升级再造工作。


两个模型的权重之间的显著相关性证明了模型的成功重用。这种方法可以赋予OSS社区自己强大的MoE!希望我们能尽快看到类似于GPT-4的开源质量!

参考资料:

https://mistral.ai/news/mixtral-of-experts/



返回网站首页

本文评论
简化签名体验:Linux基金会推出sigstore软件真实性验证服务
  致力推动开源创新的 Linux 基金会,刚刚宣布了一项旨在通过便捷的加密软件签名、提升软件供应链安全性的新服务。BetaNews 报道称,名为“sigstore”的这项辅助,使得软件开...
日期:07-16
伊朗根域名遭美国封锁_近30万伊朗IP地址受虚假凭证攻击 可入侵Gmail
  9月6日下午消息,据美国科技网站PCWorld报道,安全公司Fox-IT周一发布中期报告称,来自伊朗的接近30万个独立IP地址被要求使用荷兰认证机构DigiNotar所颁发的伪造凭证访问谷...
日期:07-22
人大金仓 clob「央企担当!人大金仓科技创新成果入选国资委推荐目录」
近日,国务院国资委发布《中央企业科技创新成果推荐目录( 2022 年版)》。作为中国电科成员单位、数据库领域国家队,人大金仓以其领先的技术水平和创新成果,在基础软件领域成功入...
日期:05-23
12月1日发布!联发科天玑8200官宣_联发科天玑1000+发布时间
近年来,联发科芯片在智能手机市场愈发受欢迎,此前的天玑8100以其不错的性能及更低的功耗和发热获得不错的市场反馈,现在新款天玑8200又要来了。今日,联发科官方宣布,将于 12 月 1...
日期:11-28
华为新专利曝光!手机可当显微镜,最高放大400倍_华为哪一款手机有显微镜功能
失效分析 赵工 半导体工程师 2023-10-09 09:57 发表于北京据快科技消息,OPPO在此前的Find X3 Pro手机中加入了“显微镜”功能,可以实现60倍放大。虽然名为显微镜,但其娱乐效果...
日期:10-10
FLICKR_Flickr设计师公开批评Flickr页面设计
Flickr设计师公开批评Flickr页面设计 新浪科技讯 北京时间5月19日晚间消息,Flickr网站设计师蒂莫妮·韦斯特(Timoni West)近日在个人博客中对Flickr的网站设计提出公开批评...
日期:07-28
最便宜的Mate50开启预售!仅需3999元_mate50预售价
中关村在线消息:10月8日,据相关爆料,华为官方公布了Mate50E的宣传海报以及售价,新机将于今日上午10:08开启预售,10月14日10:08正式开售,其中128GB版本售价3999元,256GB版本售价4499...
日期:10-09
中国邮政快递揽收「国家邮政局:春节假期全国揽投快递包裹量超7亿件」
1月29日消息,国家邮政局监测数据显示,今年春节长假期间(1月21日至27日),全国邮政快递业运行情况总体安全平稳,揽收快递包裹约4.1亿件,与去年春节假期相比增长5.1%,较2019年同期增长1...
日期:01-29
新西兰Karicare奶粉在华上市
   新西兰奶粉市场领导品牌Karicare(可瑞康)9月正式登陆中国,并选择TMALL.COM淘宝商城平台(网址nutricia.tmall.com)作为网络销售最重要的渠道之一,这也是淘宝商城母婴类目进...
日期:07-22
16.4正式版终于支持iPhone中国广电5G 「苹果iOS」「苹果首家广电集团是」
使用中国广电的iPhone用户终于能用5G了。华为手表新款watch gt2微信语音360和小米的儿童电话手表哪个好今日,苹果向iPhone用户推送iOS 16.4正式版升级,新增多项功能与优化,根据...
日期:09-18
谷歌市值为什么那么高「因AI犯错 谷歌市值一夜蒸发7172亿 网友纷纷喊退钱」
2月9日 消息:美国当地时间周三,由于谷歌最新推出的AI聊天机器人Bard在回答查询时给出了错误答案,导致母公司Alphabet股价暴跌8%,市值缩水1000多亿美元,可能进一步引发人们对搜索...
日期:02-09
贾跃亭汽车ff911视频「贾跃亭把车卖到了阿联酋!FF 91 2.0中东限量版发布」
快科技11月23日消息,2014年,贾跃亭开启了他的造车梦,远赴美国成立法拉第未来(Faraday Future,简称FF”)。没想到造车9年后,贾跃亭将他亲手创造的FF 91卖到了阿联酋,杀入中东市场。今...
日期:11-24
李佳琦双十一收入超250亿 再创商业传奇
在2023年的双11盛典中,中国美妆创业者李佳琦再次展现了他的商业魅力,成就了一场属于自己的商业传奇。截至11月12日零点,李佳琦的双11总收入已经突破250亿元,创下了历史新高。根...
日期:11-13
苹果大力投资生成式人工智能,三星则寻求微软 ChatGPT 和谷歌 Bard 的帮助
11 月6日消息:苹果公司最近宣布了一项重大投资,旨在研发自己的生成式人工智能技术,并有望在明年年底前推出。这项技术预计将随 iOS 18 一起推出,苹果正在研究一系列使用生成式...
日期:11-06
三星galaxy s24 ultra将改进摄像头算法
三星正在为即将推出的galaxy s24 ultra的摄像头开发和测试新算法,这将导致图像质量的显著改善。新算法将通过软件更新推送到手机上。面包发酵用酵母菌好还是小苏打好提高摄像...
日期:04-27
ios15更新后wifi「升级iOS 16.4的用户被苹果坑了!Wi-Fi/天气崩溃、电池续航大缩水」
当下,iOS最新正式版已是16.4,Beta版则推进到了16.5。不过,iOS16.4作为一次较为重大的正式版更新,体验方面的问题却也不少。除了已经确认的造成天气应用和Wi-Fi崩溃的问题之外,Up...
日期:04-05
fuji相机「fuji相机删除后还能恢复吗」
Fuji相机是日本富士公司推出的一系列高品质相机产品,包括数码相机、系统相机、即时相机等,适用于不同领域、风格和拍摄需求。Fuji相机以其出色的性能和质量受到了广泛赞誉,并成...
日期:06-03
Together AI 推出 Llama-2-7B-32K-Instruct:扩展上下文语言处理能力
8月22日 消息:Together AI 发布了 Llama-2-7B-32K-Instruct:一项在语言处理中扩展上下文的突破。这项创新具有重大意义,特别是在需要对复杂上下文细微差别有深刻理解的任务中...
日期:08-22
火域管家为何如此受欢迎?大家都在用?
  企业微信,已经逐渐成为众多企业开拓私域流量的首选,同时也有众多运营者在选择企微后便同时选择使用火域管家作为辅助工具,来助力企业的营销工作。火域管家为何如此受欢迎,...
日期:07-10
全球变暖加剧:专家称本世纪末全球三分之二冰川或消失_由于全球气候变暖,北极冰层加速融化
据央视财经报道,近日《科学》杂志上发布的一份最新研究表明,世界冰川萎缩和消失的速度比科学家们想象得还要快。如果以当前的气候变化趋势来预测,到本世纪末,预计世界三分之二的...
日期:01-07