您的位置:首页 > 互联网

抱抱脸Open了OpenAI的秘密武器,网易参与复现_抱抱游戏

发布时间:2024-04-08 12:05:07  来源:互联网     背景:

声明:本文来自于微信公众号 量子位(ID:QbitAI),作者:量子位,授权转载发布。

OpenAI的秘密武器、ChatGPT背后功臣RLHF,被开源了。

来自Hugging Face、加拿大蒙特利尔Mila研究所、网易伏羲AI Lab的研究人员从零开始复现了OpenAI的RLHF pipeline,罗列了25个关键实施细节。

最终成功展示了随着模型大小的增加,响应质量显著提升的scaling行为,其中2.8B、6.9B的Pythia模型在性能上超过了OpenAI发布的1.3B checkpoint。

没有写在论文中,但被作者在推文中po出来的,还有一个初步的Pythia1.4B实验,根据GPT-4的数据显示,这个1.4B模型非常接近OpenAI的1.3B性能(由于GPT4成本过高,只进行了一次评估)。

研究人员表示,他们的这一“配方”的独特之处在于对SFT、RM和PPO使用了单一的学习率,所以再重现他们的工作会变得更加简单。

作者已公开发布了训练好的模型checkpoint和代码。

顺便一提,Huggingface最近上了一把新闻,抱抱脸现在是正式译名了:

写在前头

大语言模型的功能实质上就是在玩“词语接龙”——以给定的前面的token,预测下一个token。

为了让输出的下一个token符合人类意愿,人类反馈强化学习(RLHF)这一方法理念逐渐被引入pipeline,用于收集成对的人类偏好,训练奖励模型(RM)来对这些偏好进行建模,并使用强化学习(RL)创建一个模型来输出人类喜欢的内容。

OpenAI对RLHF的探索一直走在前头。

在2020年“Learning to summarize from human feedback”这项工作中,OpenAI研究员将RLHF应用到了捕捉原始文本主要信息和意图的摘要任务中。

这种人类反馈训练的模型在英文摘要任务上显著优于人类参考摘要和仅使用监督学习的更大模型。且具有较强的泛化能力,在没有特定领域微调的情况下,也能生成高质量的文章摘要,接近人类参考摘要的质量。

在2022年“Training language models to follow instructions with human feedback”这项工作中,RLHF再次被使用,为指令遵循任务而专门设计的InstructGPT诞生。

这也是GPT-3到ChatGPT的过渡论文。

InstructGPT的结构和训练技术与ChatGPT大差不差,所以也被称为是ChatGPT的兄弟模型。而此后OpenAI并未放出ChatGPT论文,所以有不少学者从InstructGPT出发探索ChatGPT的内核。

其中秘密武器RLHF,开源界围绕着它做了不少工作,不过想要重现OpenAI的RLHF pipeline很是困难。

主要有这么几个原因:

  • RL和RLHF有许多微妙的实现细节,这些细节对训练稳定性有很大影响;

  • 对于指令遵循任务,如评估一个编码任务中生成的800行代码片段的质量,评估模型的表现不太行;

  • 模型需要长时间的训练和迭代。

考虑到以上原因,加之总结任务比一般的指令任务更容易评估,所以Hugging Face最新的这项工作选择退后一步,从OpenAI早期的RLHF工作(也就是上面第一篇论文的摘要任务)中,探寻OpenAI的RLHF的真面目。

iphone15 ultra曝光

25个细节深度复现

RLHF通常包括以下三个步骤。

步骤1:训练SFT(监督微调)策略

使用下一个词预测损失对预训练的LLM进行微调,这些微调数据基于人类示范。

在这项复现工作中,人类示范数据与OpenAI的工作保持一致,选自过滤后的Reddit TL;DR(Too Long; Didn’t Read)数据集(当时OpenAI还Open了他们的人类反馈数据集)。

步骤2:收集偏好对并训练RM(奖励模型)

使用SFT策略等采样不同完成序列,让人类标注员指出他们较偏好的序列。

基于这些偏好数据,通过在SFT策略上添加一个随机初始化的线性头来初始化RM,并优化交叉熵损失函数进行训练,目标是预测人类标注员更倾向于接受哪种完成序列。

步骤3:针对RM训练RL(强化学习)策略

从SFT策略初始化,RL策略根据RM对采样的完成序列给出奖励分数,同时加上一个KL惩罚项以防止过度偏离SFT策略。然后使用PPO算法最大化这个RLHF目标函数。

研究人员针从数据集到SFT、RM、OPP,共介绍了25个复现细节,深入分析了TL;DR数据集的规格、分词过程和分词长度分布。同时,详细描述了SFT和RM组件的训练设置、实施细节和结果。

快跑外卖app

感兴趣的家人们可以划到最后查看论文,这里罗列了作者认为有趣的细节。

数据预处理阶段:

对于RLHF的提示查询,OpenAI在最后一段进行截断,而不是使用硬性的截断限制;同时确保“TL;DR:”之后没有多余的空格。

始终在reference completions前加上前导空格,在reference completions后添加`<|endoftext|>`,并使用单独的[PAD] token填充。

SFT和偏好数据集的tokenization length不同,因此在SFT和RM训练期间分别设置最大token长度时需要注意。

RM的验证集非常有趣,因为它包含更多独特的策略对进行比较,所以它有很多超出分布的数据。

货拉拉最新进展

SFT阶段:

SFT阶段没有太多的实现细节,只需要标准的下一个token预测损失就可以了。除了使用了不同的学习率之外,研究人员的设置几乎与原始设置相同。

损失下降,ROUGE分数在4个随机种子和3个模型checkpoint大小上都有所提高。

RM训练:

RM训练更有趣。例如,研究人员发现RM只在EOS token处提取奖励。此外,在检查奖励的logits时,除了EOS token外,几乎所有的logits都是负数。

结果非常不错,验证准确率提高了,RM几乎完美地转移到了偏好数据集验证集中的CNN/DM子集上。

他们计算了SFT demonstration的平均奖励——标量值看起来有些随意;还计算了OpenAI偏好数据集中每个批号和置信度的验证准确率。

值得注意的是,不同的批次/置信度可能会有截然不同的准确率。

研究人员也测量了RM与GPT3.5和RM的一致性率(agreement rate),并发现一致性率有所提高,但在6.9B级别时有所减弱。

并绘制了AnthropicAI所做的RM校准,发现RM通常校准不足。

研究人员将验证准确率与DPO的隐式RM进行了比较,发现出于某种原因DPO的验证准确率较低。

几个不同点:

易趣网成立时间

  • RM训练只在EOS token处应用损失,而DPO在每个完成token处应用损失。

  • DPO还有一个可能影响训练的$beta参数,RM则没有。

  • 研究员Michael Noukhovitch提出了个有说服力的观点:DPO的目标可能更难优化,因为你需要使你的logprobs与基本模型有足够大的不同才能更改奖励,而RM可以学习一个线性头,可以更容易/更快地改变奖励的值。

PPO训练:

有趣的是,学习值函数的行为与RM截然不同。例如,值函数logits通常更为正,因为在每个时间步长,它都试图对最终分数进行建模。

PPO也使用了EOS技巧。在PPO训练中,研究人员通常采样固定数量的token,比如48个。如果完成不以EOS token结束怎么办?前面已经提到了,非EOS token的logits几乎总是负的(并且可能无效)。

EOS技巧基本上用恒定的-1奖励取代了不以EOS token结尾的完成的奖励。有几个目的:

研究人员还尝试了PPO的奖励白化处理,并发现这样使得与参考摘要的胜率略有降低,以及完成token的长度略微缩短。

长度在这里是一个混杂因素,所以研究人员引导了OpenAI进行的长度控制分析,通过将x轴设置为模型摘要长度与参考摘要长度之比的对数来执行。

当长度得到控制时,研究人员发现比较奖励白化的结果更具挑战性,但尽管如此,在每个摘要长度上,PPO模型几乎总是优于SFT模型。

抱抱彩蛋

PPO 的训练曲线如下所示。值得注意的是,几个1B型号的KL值爆炸了。从优化的角度来看,这并没有什么问题,因为RLHF奖励一直在上升,这些1B模型对应于“奖励黑客”/过度优化的模型。

为了更好地理解模型的行为,研究人员还可视化突出显示了经过微调的模型在生成文本时总会以一个EOS token结束。为了进一步探索这一点,原论文附录部分提供了更多类似的可视化效果。

论文链接:https://arxiv.org/abs/2403.17031

GitHub链接:

[1]https://github.com/vwxyzjn/summarize_from_feedback_details

[2]https://github.com/vwxyzjn/summarize_from_feedback_details/blob/main/visualize_tokens.py

参考链接:https://x.com/vwxyzjn/status/1773011925666050313?s=20


返回网站首页

本文评论
小黑蛛归来!索尼Mini LED电视X95EL纵横潮酷视听体验_索尼2021年电视x95j
由美国哥伦比亚影片公司出品,索尼动画制作,曾登顶《帝国》杂志“影史最 佳动画第 一名”、获得奥斯卡最 佳动画长片的《蜘蛛侠:平行宇宙》的全新续作《蜘蛛侠:纵横宇宙》,将于 6...
日期:05-22
苹果开始裁员!这项业务受到影响「苹果开始裁员!这项业务受到影响吗」
iphone 11基带是高通还是英特尔凤凰网科技讯 北京时间4月4日消息,知情人士称,苹果公司将在企业零售团队内部进行少量裁员,这是该公司自去年开始紧缩开支以来首次已知的内部裁员...
日期:04-04
不顾设计团队警告?库克力推AR头显今年发布「库克m1」
据《金融时报》报道,苹果CEO蒂姆·库克与运营总监杰夫·威廉姆斯站在一起,推动今年推出第一代混合现实耳机设备,而违背了公司设计团队的意愿。hp服务器是什么混合现实耳机的推...
日期:03-13
旗天科技2019年年报出炉:同比实现增长 战略调整可期_旗天科技三季报
  2020年4月24日晚间,旗天科技集团股份有限公司(300061.SZ)发布2019年年报。年报显示,旗天科技全年实现营收12.3亿元,归属于上市公司股东的净利润5223万余元,同比实现稳步增...
日期:06-23
还有想买的吗?特斯拉中国加快产品交付:缩短至1-5周 速度提车节奏
还有想买特斯拉的用户吗,如果有交付加快了。特斯拉中国官网显示,特斯拉已大幅调整旗下主要产品交付周期,除Model Y后驱版由此前的1-4周调整为1-5周外,包括Model 3后驱版/高性能...
日期:11-16
一觉睡醒,AI 破解验证码的速度比我还快了?
声明:本文来自于微信公众号 差评(ID:chaping321),作者:世超,授权转载发布。最近世超看到了个消息:AI识别验证码,现在比人都快了。不仅快,准确率还吊打人类。这不,前段时间加州大学...
日期:08-24
Wagas或已被收购,估值有所下降_wacc对公司估值
图片来源:Wagas公众号  记者 |卢奕贝 编辑 |牙韩翔  据自媒体“明亮公司”报道,健康食品和烘焙连锁品牌Wagas(沃歌斯)已完成出售交易,收购方为某国际知名基金,估值较去年报道...
日期:08-23
腾讯第三季度财报出炉:员工数量超10万人 人均月薪8万_腾讯 三季度 财报
11月16日消息,今日,腾讯公布2022年第三季度财报,数据显示,腾讯第三季度实现营业收入1400.93亿元,同比跌幅收窄至2%,净利润322.54亿元,同比增长2%,在连续四个季度的下跌后回稳。营业...
日期:11-17
推特前雇员举报推特“易受外国政府利用”,扯上中俄「推特 国外」
【环球时报驻美国特约记者 英辰 环球时报记者 张旺】据美国有线电视新闻网(CNN)24日报道,被推特公司解雇的前安全主管佩特·扎特科向美国国会、司法部以及联邦监管机构举报称,推...
日期:09-27
华为分布式应用「华为智能分布式OLT获GlobalData FTTP竞争力测评最高分」
通信世界网消息(CWW)近日,全球权威咨询公司GlobalData发布《FTTP(Fiber to the Premise)竞争力评估报告》,华为SmartAX MA5800/EA5800系列产品在客户和市场牵引力、部署灵活性、可...
日期:07-21
Fortinet 使用 AI 将安全事件检测和响应时间从三周缩短到一小时
8月7日消息:网络安全企业 Fortinet 最近公布了 2023 年第二季度财报,显示公司的总营收为 12.9 亿美元,同比增长 26%。魅族18s能用多大的充电器苹果电脑全部都是广达生产吗特斯...
日期:08-07
迄今最护眼的曲面屏手机来袭!真我10系列预热_超级曲面屏手机
今日消息,realme宋琪在微博上问网友有人知道PWM调光和DC调光的区别吗”?目前主流手机有PWM调光和DC调光,其中DC调光是通过提高或降低电路功率来改变屏幕亮度,功率=电压x电流,所以...
日期:11-06
TP-LINKWi-Fi 7路由器官宣:11月14日发布_tplinkWi-Fi
很多人还没用上Wi-Fi 6,Wi-Fi 7已经来了。TP-Link宣布将于2022年11月14日发布旗下首款Wi-Fi 7路由器。华为鸿蒙3.0发布TP-Link表示,TP-Link处于Wi-Fi 7开发的最前沿,将展示这项...
日期:11-09
部分省今日高考结束「多地高考今日结束!直击场外:家长手捧鲜花等待」
6月8日消息,今天是高考第二天,陕西、安徽等部分省份的考生,8日下午完成外语科目的考试后,结束全部高考科目的考试。在高考结束后,部分家长手捧鲜花在考场外等待,考生飞奔出考场与...
日期:06-09
视频生成新突破:PixelDance,轻松呈现复杂动作与炫酷特效_视频制作生成器
声明:本文来自于微信公众号机器之心(ID:almosthuman2014),作者:机器之心,授权转载发布。最近,除了大语言模型继续持续刷屏,视频生成技术也取得了重大进展,多家公司相继发布了新模型。...
日期:11-24
Windows 8集成新一代反恶意软件_windows8恶意软件删除工具
  10月12日消息,据国外媒体报道,Windows8包括了默认反恶意软件功能,大大超越了传统Windows Defender所能提供的保护功能,提升了保护水平。   此外,已经打包进Windows 8 Deve...
日期:07-23
苏宁金融武汉90后妹子:为疫情期间支付服务出一份力,值!
  “除夕夜,我一个人煮了26个速冻饺子,全都吃了,就当做过节。”万家团圆之时,她万万没想到,鼠年的春节会是这样度过的,没有张灯结彩,没有一大桌饭菜,没有人潮攒动,甚至没...
日期:04-25
抖音 去旅游了_响应就地过年,千万网友在抖音“云旅行”
  2021年春节,“就地过年”防疫号召让许多人取消了返乡和出行计划。为丰富网友们的假期生活,抖音联合文旅部以“云游合家欢,就地过大年”为主题,推出“抖出新年味”等春节专...
日期:07-16
英特尔与windows_英特尔高管爆料:4个版本Windows 8支持ARM
英特尔软件业务部门高级副总裁蕾妮·詹姆士(腾讯科技配图)(晁晖)北京时间5月18日消息,据国外媒体报道,英特尔软件业务部门高级副总裁蕾妮·詹姆士(Renee James)周二透露,微软将有4...
日期:07-28
VR鼻祖Oculus创始人:扎克伯格的元宇宙就像烧钱的“项目车”「VRX币的创始人」
凤凰网科技讯 北京时间10月25日消息,VR头显鼻祖Oculus创始人帕尔默勒基(Palmer Luckey)并不喜欢马克扎克伯格(Mark Zuckerberg)目前为止为元宇宙开发的东西,尽管他确实认为它...
日期:10-29