您的位置:首页 > 互联网

英伟达gf705「英伟达开源新王登基!70B刷爆SOTA,击败GPT-4o只服OpenAI o1」

发布时间:2024-10-17 17:00:36  来源:互联网     背景:

声明:本文来自于微信公众号新智元,作者:新智元,授权转载发布。

【新智元导读】就在刚刚,英伟达开源了超强模型Nemotron-70B,后者一经发布就超越了GPT-4o和Claude3.5Sonnet,仅次于OpenAI o1!AI社区惊呼:新的开源王者又来了?业内直呼:用Llama3.1训出小模型吊打GPT-4o,简直是神来之笔!

一觉醒来,新模型Nemotron-70B成为仅次o1的最强王者!

是的,就在昨晚,英伟达悄无声息地开源了这个超强大模型。

一经发布,它立刻在AI社区引发巨大轰动。

在多个基准测试中,它一举超越多个最先进的AI模型,包括OpenAI的GPT-4、GPT-4Turbo以及Anthropic的Claude3.5Sonnet等140多个开闭源模型。

并且仅次于OpenAI最新模型o1。

在即便是在没有专门提示、额外推理token的情况下,Nemotron-70B也能答对草莓有几个r经典难题。

业内人士评价:英伟达在Llama3.1的基础上训练出不太大的模型,超越了GPT-4o和Claude3.5Sonnet,简直是神来之笔。

网友们纷纷评论:这是一个历史性的开放权重模型。

目前,模型权重已可在Hugging Face上获取。

地址:https://huggingface.co/nvidia/Llama-3.1-Nemotron-70B-Instruct-HF

有人已经用两台Macbook跑起来了。

超越GPT-4o,英伟达新模型爆火

Nemotron基础模型,是基于Llama-3.1-70B开发而成。

Nemotron-70B通过人类反馈强化学习完成的训练,尤其是强化算法。

这次训练过程中,使用了一种新的混合训练方法,训练奖励模型时用了Bradley-Terry和Regression。

使用混合训练方法的关键,就是Nemotron的训练数据集,而英伟达也一并开源了。

它基于Llama-3.1-Nemotron-70B-Reward提供奖励信号,并利用HelpSteer2-Preference提示来引导模型生成符合人类偏好的答案。

在英伟达团队一篇预印本论文中,专门介绍了HelpSteer2-Preference算法。

论文地址:https://arxiv.org/pdf/2410.01257

在LMSYS大模型竞技场中,Arena Hard评测中,Nemotron-70B得分85。

在AlpacaEval2LC上得分57.6,在GPT-4-Turbo MT-Bench上为8.98。

能够击败GPT-4o的模型,究竟有多强?

各路网友纷纷出题,来考验Nemotron-70B真实水平。

测试开始!

一步一步认真思考:我目前有两根香蕉,我昨天吃掉一根,现在还有几根?

Nemotron-70B会将问题所给信息进行分解,然后一步一步推理得出,最终的正确答案是2根。

评论区网友表示,来一道上难度的题列出活到89岁的十位名人。

不过,模型却把某人的去世日期弄错了,然而它不是一个推理题。

还有开发者要求它,将整个entropix的jax模型实现转换成Pytorch格式,而且在零样本的情况下,70B模型就完成了。

那么,Nemotron-70B在hard prompt上的表现,是否值得推敲?

在如下测试中,显然并没有通过,但确实给出了一个非常有趣的初步输出。

考虑一个假设情况,如果月球只有25英里远,而一个人有太空服来保护自己免受太空环境的严酷影响,人类步行到月球是否合理?只回答最突出的要点。

Nemotron-70B给出的回答是:

年轻人该不该睡电热毯

不可能,因为需要克服巨大的重力逃逸速度:即使月球只有25英里远,人类仍然需要克服大约2.4公里/秒(5,376英里/小时)的初始逃逸速度,才能从地球表面到达月球表面。步行速度最快也只有约5-6英里/小时(8-9.7公里/小时),远远不足以达到这个速度,使得步行到月球完全不切实际。

英伟达7600gs

再来一道推理题,让Nemotron-70B与GPT-4o一起PK薛定谔的猫实验变体:

一只死猫被放入一个盒子中,盒子里还有一个核同位素、一瓶毒药和一个辐射探测器。如果辐射探测器检测到辐射,它就会释放毒药。一天后打开盒子。猫活着的概率是多少?

Nemotron-70B考虑很有特点的是,从一开始就考虑到猫就是死的,即便放在盒子一天后,仍旧是死的。

而GPT-4o并没有关注初始条件的重要性,而是就盒子里的客观条件,进行分析得出50%的概率。

有网友表示,非常期待看到Nemotron70B在自己的Ryzen5/Radeon5600Linux电脑上跑起来是什么样子。

在40GB+以上的情况下,它简直就是一头怪兽。

芯片巨头不断开源超强模型

英伟达为何如此热衷于不断开源超强模型?

业内人表示,之所以这么做,就开源模型变得如此优秀,就是为了让所有盈利公司都必须订购更多芯片,来训练越来越复杂的模型。无论如何,人们都需要购买硬件,来运行免费模型。

总之,只要英伟达在定制芯片上保持领先,在神经形态芯片未来上投入足够资金,他们会永远立于不败之地。

无代码初创公司创始人Andres Kull心酸地表示,英伟达可以不断开源超强模型。因为他们既有大量资金资助研究者,同时还在不断发展壮大开发生态。

而Meta可以依托自己的社交媒体,获得利润上的资助。

然而大模型初创企业的处境就非常困难了,巨头们通过种种手段,在商业落地和名气上都取得了碾压,但小企业如果无法创造利润,将很快失去风头家的资助,迅速倒闭。

而更加可怕的是,英伟达可以以低1000倍的成本实现这一点。

如果英伟达真的选择这么做,将无人能与之匹敌。

现在,英伟达占美国GDP的11.7%。而在互联网泡沫顶峰时期,思科仅占美国GDP的5.5%

最强开源模型是怎样训练出来的

在训练模型的过程中,奖励模型发挥了很重要的作用,因为它对于调整模型的遵循指令能力至关重要。

主流的奖励模型方法主要有两种:Bradley-Terry和Regression。

前者起源于统计学中的排名理论,通过最大化被选择和被拒绝响应之间的奖励差距,为模型提供了一种直接的基于偏好的反馈。

后者则借鉴了心理学中的评分量表,通过预测特定提示下响应的分数来训练模型。这就允许模型对响应的质量进行更细节的评估。

对研究者和从业人员来说,决定采用哪种奖励模型是很重要的。

然而,缺乏证据表明,当数据充分匹配时,哪种方法优于另一种。这也就意味着,现有公共数据集中无法提供充分匹配的数据。

英伟达研究者发现,迄今为止没有人公开发布过与这两种方法充分匹配的数据。

为此,他们集中了两种模型的优点,发布了名为HelpSteer2-Preference的高质量数据集。

这样,Bradley-Terry模型可以使用此类偏好注释进行有效训练,还可以让注释者表明为什么更喜欢一种响应而非另一种,从而研究和利用偏好理由。

他们发现,这个数据集效果极好,训练出的模型性能极强,训出了RewardBench上的一些顶级模型(如Nemotron-340B-Reward)。

主要贡献可以总结为以下三点——

1. 开源了一个高质量的偏好建模数据集,这应该是包含人类编写偏好理由的通用领域偏好数据集的第一个开源版本。

2. 利用这些数据,对Bradley-Terry风格和Regression风格的奖励模型,以及可以利用偏好理由的模型进行了比较。

3. 得出了结合Bradley-Terry和回归奖励模型的新颖方法,训练出的奖励模型在RewardBench上得分为94.1分,这是截止2024.10.1表现最好的模型。

HelpSteer2-Preference数据集

数据收集过程中,注释者都会获得一个提示和两个响应。

他们首先在Likert-5量表上,从(有用性、正确性、连贯性、复杂性和冗长性)几个维度上,对每个响应进行注释。

然后在7个偏好选项中进行选择,每个选项都与一个偏好分数及偏好理由相关联。

Scale AI会将每个任务分配给3-5个注释者,以独立标记每个提示的两个响应之间的偏好。

严格的数据预处理,也保证了数据的质量。

根据HelpSteer2,研究者会确定每个任务的三个最相似的偏好注释,取其平均值,并将其四舍五入到最接近的整数,以给出整体偏好。

此外,研究者过滤掉了10%的任务,其中三个最相似的注释分布超过2。

这样就避免了对人类注释者无法自信评估真实偏好的任务进行训练。

HelpSteer2Preference中不同回应之间的偏好分布与HelpSteer2中它们的帮助评分差异之间的关系

研究者发现,当使用每种奖励模型的最佳形式时,Bradley-Terry类型和回归类型的奖励模型彼此竞争。

此外,它们可以相辅相成,训练一个以仅限帮助性SteerLM回归模型为基础进行初始化的缩放Bradley-Terry模型,在RewardBench上整体得分达到94.1。

截至2024年10月1日,这在RewardBench排行榜上排名第一。

RewardBench上的模型表现

最后,这种奖励模型被证明在使用Online RLHF(特别是REINFORCE算法)对齐模型以使其遵循指令方面,非常有用。

如表4所示,大多数算法对于Llama-3.1-70B-Instruct都有所改进。

对齐模型的性能:所有模型均由Llama-3.1-70B-Instruct作为基础模型进行训练

如表5所示,对于Strawberry中有几个r这个问题,只有REINFORCE能正确回答这个问题。

参考资料:

https://arxiv.org/pdf/2410.01257

https://huggingface.co/nvidia/Llama-3.1-Nemotron-70B-Instruct-HF


返回网站首页

本文评论
查询癌症做什么检查「腾讯做了个小程序:普通人也能自查癌症风险 准确率超80%」
快科技4月29日消息,最近,腾讯联合北京大学肿瘤医院,在宁夏启动了中国上消化道恶性肿瘤精准防治先行示范项目”。受饮食结构和基因、生活环境等影响,宁夏也是中国上消化道肿瘤的...
日期:04-29
城会玩:网友吐槽热播韩剧给重庆P了座山 冒充韩国首尔
10月11日消息,近日有网友爆料称,目前韩国热播的韩剧《造后者》最后一集,给现代化的重庆P了座山,冒充韩国首尔。从网友提供的素材显示,这张照片是从南山老君洞方向拍摄的重庆渝中...
日期:10-11
停止支持,微软 Win10 1909 家庭 / 专业版获得最后的 KB5003169 更新(win10更新kb5005539)
  5 月 12 日消息 微软今日为 Win10 1909 版本发布了 KB5003169 累积更新,版本号升级至 build 18363.1556。   本次更新内容如下: 更新以提高 Windows 执行基本操作时...
日期:08-03
销售额大涨712%-AR眼镜发展迈向快车道 XREAL双11战报
来源:中关村在线11月12日消息,2023年双11大促节落下帷幕,全球领先的消费级AR眼镜品牌——XREAL率先对外公布了双11成绩单。根据官方战报,本次双11期间,XREAL在京东和天猫双平台全...
日期:11-14
只需一个耳机 盲人也能在电影院看电影了_盲人可以看手机?
快科技7月13日消息,盲人如何看电影,答案是加一个解说。今天沈腾、马丽领衔主演的电影《抓娃娃》点映,有些影院有一副专门的耳机,这是为视障观众准备的。电影放映时,耳机同期播放...
日期:07-13
低温蓝色预警!这些地方最低温较历史同期低7℃以上:南方网友瑟瑟发抖
强大的寒潮大举南下,多地均发布了寒潮预警信号。今日06时,中央气象台继续发布低温蓝色预警,受强冷空气影响,预计12月18日08时至21日08时,江南中东部和南部、华南大部以及四川东部...
日期:12-18
微软高管透露将推出更多超越OpenAI的大语言模型_微软开发语言
**划重点:**1. 笔记本电脑i5跟i7区别在哪苹果发布iphone13pro和promax苏宁 super family...
日期:12-08
华为6亿美元专利许可费「华为正式公布5G手机专利许可费率:每台上限2.5美元」
快科技7月13日消息,在2023创新和知识产权论坛上,华为公布了其手机、Wi-Fi和物联网专利许可费率。其中,华为对4G和5G手机设置的许可费率上限分别为每台1.5美元和2.5美元;对Wi-Fi...
日期:07-14
腾讯2022年第二季度营收1340亿元 调整后净利润281亿元_腾讯利润2020全年净利润
留住人间烟火气地摊经济 查看最新行情   讯 8月17日下午消息,腾讯控股今日发布2022年度第二季度财报。财报显示,该公司第二季度营收1340亿元,同比下滑3%;净...
日期:08-19
杭州地铁售票机不能用支付宝 买多张票十分不便「杭州地铁买票只能现金吗」
最近,有人反馈,杭州地铁的自动售票机不支持支付宝、微信购票。@浙江经视的记者调查发现,的确只能用现金、数字人民币和银联卡支付,支付宝、微信则可以直接获取乘车码进站搭乘。...
日期:05-11
丢掉苹果AirPods大单 歌尔股份连续两日跌停:市值蒸发超百亿_AirPods市值
11月8日晚,国内果链”厂商歌尔股份发布了一份被砍单”声明,引发了整个行业的巨大震动。其公告中提到一个境外大客户的产品被暂停生产,预计影响33亿元的收入,而这个大客户就是苹...
日期:11-11
微软为什么被美国制裁「站在AI之巅,微软为何仍被“看空”?」
声明:本文来自于微信公众号锌刻度(ID:xxxxx),作者:陈邓新,授权转载发布。眼下,万物皆可AI。当AI成为资本市场的关键词之后,点燃了投资者的热情,高唱“死了都要AI”,将行情的演绎达到极...
日期:04-12
将AI带入企业:红帽的“开源”与“混合”
将AI带入企业:红帽的“开源”与“混合” 通信产业网|2024-06-18 00:00:00作者:党博文来源:通信产业网【通信产业网讯】(记者 党博文)在数字化浪潮中,人工智能(AI)已成为企业转型升级...
日期:06-24
分析师暗示苹果2024年重点将是可穿戴设备而非iPhone_2024年iphone会出什么
12月18日消息,据外媒报道,一位长期关注苹果的分析师暗示,苹果2024年的重点将是可穿戴设备,而非iPhone。小米抢首发15年来,iPhone一直是苹果的主要重点。然而,上述分析师暗示,与往年...
日期:12-19
旅游微综艺_2019带着微博去旅行原创内容受热捧短视频栏目成人气王
  2019微博最大的旅行品牌活动#带着微博去旅行#日前已圆满收官,本次活动历经八大主题,持续近两个月,引爆全网用户参与热情,参与旅拍互动的小伙伴达7788万人次、旅行话题阅读...
日期:07-20
小米civi的cpu「小米Civi 2用上骁龙7芯片:号称36个月不卡」
小米Civi 2手机在今天正式发布,新机搭载了骁龙7芯片,这也是该芯片在市面中的首批机型,而且小米Civi 2手机还配备了前置双摄及后置5000万像素大底三摄,同时性能也很强大。这款处...
日期:09-28
ICANN拟开放大批新域名后缀 或明年投入使用(icann新增顶级域名)
(中涛)北京时间6月18日消息,据国外媒体报道,互联网名称和号码分配机构(ICANN)将于下周一(6月20日)在新加坡召开会议,届时ICANN将就开放大批新域名后缀计划进行投票。如果此次域...
日期:07-30
TrendForce:预计 OLED 手机渗透率 2023 年将达 50.8%_oled市场份额
11月30日消息:据TrendForce集邦咨询研究显示,随着OLED面板在手机应用上逐渐增加,预估2022年采用OLED面板的手机渗透率约47.7%,至2023年将达50.8%,2026年则预计超越六成。TrendFo...
日期:12-01
东方选原曲认知测验「东方甄选首次启动app直播」
7月4日 消息:东方甄选最新发布了全新版本的手机应用,并计划于7月5日至11日在该应用上举行甘肃专场直播活动。这是东方甄选成立一年以来首次在应用上举办类似的直播活动。据称...
日期:07-04
当互动小说再进一步,与角色扮演+社交能够产生怎样的火花?「写互动小说」
声明:本文来自于微信公众号 白鲸出海(ID:baijingapp),作者:辛童,授权转载发布。全球成千上万的用户被小说中迷人的故事所吸引,于是出现了阅文、掌阅、Dreame 等网文顶流,一个个网...
日期:09-30