您的位置:首页 > 互联网

发布几小时,微软秒删媲美GPT-4开源大模型!竟因忘记投毒测试

发布时间:2024-04-24 10:21:52  来源:互联网     背景:

声明:本文来自于微信公众号 新智元(ID:AI_era),作者:新智元,授权转载发布。

【新智元导读】前段时间,微软公布并开源了最新一代大模型WizardLM-2,号称性能堪比GPT-4。不过,还未上线一天,模型权重和公告全被删除了,原因竟是......

上周,微软空降了一个堪称GPT-4级别的开源模型WizardLM-2。

却没想到发布几小时之后,立马被删除了。

有网友突然发现,WizardLM的模型权重、公告帖子全部被删除,并且不再微软集合中,除了提到站点之外,却找不到任何证据证明这个微软的官方项目。

iqoo怎么开启开发者选项

GitHub项目主页已成404。

项目地址:https://wizardlm.github.io/

包括模型在HF上的权重,也全部消失了.....

全网满脸疑惑,WizardLM怎么没了?

然鹅,微软之所以这么做,是因为团队内部忘记对模型做测试。

随后,微软团队现身道歉并解释道,自几个月前WizardLM发布以来有一段时间,所以我们对现在新的发布流程不太熟悉。

我们不小心遗漏了模型发布流程中所需的一项内容 :投毒测试

微软WizardLM升级二代

去年6月,基于LlaMA微调而来的初代WizardLM一经发布,吸引了开源社区一大波关注。

论文地址:https://arxiv.org/pdf/2304.12244.pdf

随后,代码版的WizardCoder诞生——一个基于Code Llama,利用Evol-Instruct微调的模型。

测试结果显示,WizardCoder在HumanEval上的pass@1达到了惊人的73.2%,超越了原始GPT-4。

时间推进到4月15日,微软开发者官宣了新一代WizardLM,这一次是从Mixtral8x22B微调而来。

它包含了三个参数版本,分别是8x22B、70B和7B。

最值得一提的是,在MT-Bench基准测试中,新模型取得了领先的优势。

具体来说,最大参数版本的WizardLM8x22B模型性能,几乎接近GPT-4和Claude3。

在相同参数规模下,70B版本位列第一。

而7B版本是最快的,甚至可以达到与,参数规模10倍大的领先模型相当的性能。

WizardLM2出色表现的背后的秘诀在于,微软开发的革命性训练方法论Evol-Instruct。

Evol-Instruct利用大型语言模型,迭代地将初始指令集改写成越来越复杂的变体。然后,利用这些演化指令数据对基础模型进行微调,从而显著提高其处理复杂任务的能力。

另一个是强化学习框架RLEIF,也在WizardLM2开发过程中起到了重要作用。

在WizardLM2训练中,还采用了AI Align AI(AAA)方法,可以让多个领先的大模型相互指导和改进。

AAA框架由两个主要的组件组成,分别是共同教学和自学。

共同教学这一阶段,WizardLM和各种获得许可的开源和专有先进模型进行模拟聊天、质量评判、改进建议和缩小技能差距。

通过相互交流和提供反馈,模型可向同行学习并完善自身能力。

对于自学,WizardLM可通过主动自学,为监督学习生成新的进化训练数据,为强化学习生成偏好数据。

这种自学机制允许模型通过学习自身生成的数据和反馈信息来不断提高性能。

另外,WizardLM2模型的训练使用了生成的合成数据。

在研究人员看来,大模型的训练数据日益枯竭,相信AI精心创建的数据和AI逐步监督的模型将是通往更强大人工智能的唯一途径。

因此,他们创建了一个完全由AI驱动的合成训练系统来改进WizardLM-2。

手快的网友,已经下载了权重

然而,在资料库被删除之前,许多人已经下载了模型权重。

在该模型被删除之前,几个用户还在一些额外的基准上进行了测试。

好在测试的网友对7B模型感到印象深刻,并称这将是自己执行本地助理任务的首选模型。

还有人对其进行了投毒测试,发现WizardLM-8x22B的得分为98.33,而基础Mixtral-8x22B的得分为89.46,Mixtral8x7B-Indict的得分为92.93。

得分越高越好,也就是说WizardLM-8x22B还是很强的。

如果没有投毒测试,将模型发出来是万万不可的。

大模型容易产生幻觉,人尽皆知。

如果WizardLM2在回答中输出有毒、有偏见、不正确的内容,对大模型来说并不友好。

尤其是,这些错误引来全网关注,对与微软自身来说也会陷入非议之中,甚至会被当局调查。

有网友疑惑道,你可以通过投毒测试更新指标。为什么要删除整个版本库和权重?

微软作者表示,根据内部最新的规定,只能这样操作。

还有人表示,我们就想要未经脑叶切除的模型。

不过,开发者们还需要耐心等待,微软团队承诺,会在测试完成后重新上线。

参考资料:

https://favtutor.com/articles/wizardlm-2-benchmarks/

湖北境内头骨化石

https://anakin.ai/blog/wizardlm-2-microsoft/


返回网站首页

本文评论
讯飞输入法亮相第三届科技无障碍大会 用AI构筑无碍世界(讯飞输入法黑科技)
  5月21日,第三届“科技无障碍发展大会”(TADC)在北京拉开帷幕。在互联网和科技高度发展的今天,如何让科技成果人人受益?信息无障碍研究会携手政府单位、企业、民间机构、...
日期:10-18
车主称被蔚来服务震撼:ABS故障需拖车 专员免费帮订酒店、送晚餐
快科技4月1日消息,蔚来一直被称为车圈海底捞”,即便是蔚来车主,体验过其售后服务,也会被震撼到。日前,有蔚来车主发文称,再一次被蔚来的服务震撼,从最开始的蔚来专员驱车两个钟的一...
日期:04-01
阵容强大!电视剧《三体》今晚央8+腾讯视频开播:刘慈欣发声「刘慈欣三体在线收听完整版」
来自三体电视剧官微消息,筹备已久的本剧将于1月15日起,CCTV-8每周日至周五21点30分播出1集。1月15日腾讯视频等平台全网首播,会员每周日到周五21点30分更新1集,首更4集。非会员...
日期:01-15
iQOO Neo 7通过3C认证 支持120W快充 最晚10月发布「iqoo7支持120w快充吗」
近日,iQOO Neo 7通过了国内3C认证,具体型号为V2231A,配备120W快充。据此前爆料,iQOO Neo 7将采用天玑9000+旗舰芯片,配备全新FHD+ 120Hz护眼电竞直屏。同时还配备50MP IMX766v大...
日期:09-28
首创情感引擎!蔚来车载人工智能车载NOMI将迎升级_蔚来车机系统能不能装软件
快科技4月12日消息,据媒体报道,蔚来今日正式推出了全新的NOMI GPT大模型,该模型基于全新技术架构打造,将为蔚来用户带来了前所未有的智能体验。此次升级中,蔚来为NOMI量身打造了...
日期:04-12
《新基建,新机遇:中国智能经济发展白皮书》重磅首发 百度以AI“助燃”
  疫情全球爆发、世界经济面临困局亟待转型,以人工智能为核心驱动力的智能经济新时代呼之欲出。6月18日,国务院发展研究中心发起设立并领导的中国发展研究基金会联合百度发...
日期:07-14
CCTV-6启动影片修复和超清化 约2万部中外电影焕发新生_央视6套电影回放
近日,百度联合电影频道发布业内首个影视行业智感超清大模型电影频道-百度文心,用一个模型同时处理影片修复的多个任务,助力电影频道全方位提升视频修复效率,为用户带来更加清晰...
日期:12-04
5G消息的星星之火,能否燎原应用创新之势?「5g消息百度百科」
通信世界网消息(CWW)2023年7月19日,工信部公开征求对《关于加强端网协同助力5G消息规模发展的通知》(以下简称《通知》)的意见,计划从增量终端原生支持,存量终端升级演进两方面入手...
日期:08-07
马斯克的"读脑"设备首次植入人体,科学家期待什么?担忧什么?
2月4日消息,埃隆·马斯克(Elon Musk)创建的Neuralink旨在改变我们对脑机接口的认知,让科幻变成了现实。1月29日发布的消息中,马斯克宣布Neuralink已成功将其“读脑”设备首次植入...
日期:02-07
东方甄选CEO孙东旭向董宇辉道歉:我“不职业”_新东方 孙东旭
快科技12月14日消息,刚刚,东方甄选CEO孙东旭发布道歉视频。 视频中,他对自己近日在直播中神态咄咄逼人”以及把手机放在桌上的动作、提到董宇辉的薪酬等行为向网友及宇辉道...
日期:12-15
AVEVA剑维软件加入联合国全球契约组织
  通过加盟联合国全球契约,AVEVA剑维软件强化建立可持续未来的承诺   英国伦敦,2021年1月27日 – 工程和工业软件的全球领导者AVEVA剑维软件日前宣布加入联合国全球契约...
日期:02-21
苹果 tvOS 15.2 RC 预览版发布_苹果RC版本
  12 月 9 日消息,昨天,苹果发布了包括 iOS 15.2、macOS 12.1、watchOS 8.3 在内的多个 RC 预览版系统更新。   苹果今天向开发者发布了 tvOS 15.2 更新的 RC 预览版本,具...
日期:12-18
直播类网络文化经营许可证_北京:电商类、教育类等直播不属于网络表演 不需办经营许可证
  3月11日消息,3月10日,北京市文化和旅游局官网发布特别提示,明确电商类、教育类、医疗类、培训类、金融类、旅游类、美食类、体育类、聊天类等直播不属于网络表演,不需要申...
日期:05-16
南京网红暴猴被收编至动物园 曾被猴王打得不敢上岸
江苏南京的一只名叫“网红暴猴”的猴子于4月13日被送往动物园收容,但现在它却不敢上岸,长期生活在水里,还学会了划船,因为被动物园的猴王打压。在被送往动物园之前,这只猴子经常...
日期:04-13
元宇宙火爆之下,区块链从理想照进现实_区块链元宇宙什么意思
声明:本文来自于微信公众号 孟永辉(ID:menglaoshi007),作者:孟永辉,授权转载发布。当人们一股脑地融入到元宇宙的赛道上,区块链总算是冷静了下来。现在,我们看到的是越来越多的「元宇...
日期:09-24
中兴通讯无线智能化赋能中国移动多个省份生产工作流_中兴通讯无线生产部
通信世界网消息(CWW)近年来,随着5G、云计算等新一代信息技术的快速发展,网络规模和复杂度不断提升,对网络运维提出了更高的要求。为满足网络运维需求,中国移动集团网络部与中兴通...
日期:01-04
ios13.6电量显示百分比「苹果发布 iOS 16.1 首个公开测试版:全面支持电量百分比显示」
IT之家 9 月 16 日消息,苹果今天向公众测试者发布了即将到来的 iOS 16.1 更新的首个测试版,相较开发者测试版仅晚了一天,不过更新内容应该是完全相同的,例如对电池百分比图标的...
日期:09-24
日本国家级项目宣告失败!远程摧毁,负责人公开谢罪「日本国际项目」
据央视新闻,当地时间3月7日上午10时56分,日本鹿儿岛县发射的“H3”新型火箭宣布发射失败,日本宇宙航空研究开发机构(JAXA)表示,该火箭二级发动机未能成功点燃。图片来源:视觉中国当...
日期:03-08
华为P60外观全曝光 设计已无悬念_华为p60Pro概念图
中关村在线消息:近日,外媒曝光了华为P60的相关消息,同时新机的渲染图也被放出。华为P60后置摄像头模组采用万象双环设计,配色为土豪金,四角边采用弧形处理,正面屏幕为居中挖孔,看起...
日期:11-09
7人吃自助4小时炫300多个螃蟹 网友:这么吃胃受得了?_吃自助几个人划算
5月3日,山东青岛发生了一则有关自助餐的新闻。当天,张先生和7个朋友一起去自助餐厅用餐,点了大量食物,包括80多碗杨枝甘露、300多个螃蟹、四五十盒榴莲、甜虾、生鱼片以及小龙虾...
日期:05-05