您的位置:首页 > 互联网

Llama 2打败GPT-4!Meta让大模型自我奖励自迭代,再证合成数据是LLM终局

发布时间:2024-01-22 14:06:57  来源:互联网     背景:

声明:本文来自于微信公众号 新智元(ID:AI_era),作者:桃子,授权转载发布。

【新智元导读】AI训AI必将成为一大趋势。Meta和NYU团队提出让大模型自我奖励的方法,让Llama2一举击败GPT-40613、Claude2、Gemini Pro领先模型。

Llama2-70B一夜之间打败GPT-4,让整个AI社区为之震惊!

甚至,在AlpacaEval2.0排行榜中,微调后的模型胜率完全碾压Claude2、Gemini Pro等模型。

Meta和NYU研究团队究竟提出了什么秘制配方,才能让Llama2-70B超强进化?

正如论文题目所言——自我奖励语言模型,模型生成训练数据,并评估这些数据的质量,然后用这些数据来自己训练自己。

简单来说,最新方法可以让LLM在迭代训练过程中不断自我改进。

论文地址:https://arxiv.org/pdf/2401.10020.pdf

LeCun也转赞了自家实验室的研究。

RLAIF已经不是新鲜事了,之前包括Anthropic,谷歌都推出过自己的AI训AI的技术,那么Meta的这项工作和之前的几家的RLAIF区别在哪里呢?

我们先来了解一下Meta的自我奖励语言模型的大概框架。

研究团队开发了一个能够遵循指令和自我评价回复质量的能力的模型。模型可以生成新的训练数据,对生成的回复进行质量评分,从而不断改进自己的输出。

模型首先根据少量人工标注数据进行预训练,获得初始化模型。

然后模型生成新的指令和多个候选回复,并使用LLM-as-a-Judge的提示,让模型对自己生成的回复打分。

根据打分形成新的训练数据,继续训练模型。

这样可以迭代训练,在每次迭代中模型的遵循指令能力和打分能力都会提升。

拼多多海外业务

研究人员从Llama270B预训练模型开始迭代训练。

结果显示在3次迭代中,模型遵循指令的能力有显著提升,同时奖励建模能力也在提高,评价结果与人工判断的相关性更高。

这说明模型迭代过程中,不仅指令遵循能力提高,也更善于对自己生成的回复进行判断。

迭代第三次的模型在AlpacaEval2.0基准测试中,就战胜了Claude2、Gemini Pro、GPT-40613等模型。

Meta的这项工作与谷歌在去年9月发布的RLAIF论文相比,更近一步地使用了一个不断进化的奖励模型来不断迭代训练模型,而迭代后的模型也确实取得了明显可见的性能提升。

可以说,Meta又将AI自我迭代大模型的前沿往前推进了一大步。

如何训练自我奖励语言模型

研究人员的方法首先假设可以访问基本的预训练语言模型和少量人工注释的种子数据。

然后研究人员建立一个模型,让它同时拥有两种能力:

  • 指令遵循:给出描述用户请求的提示,能够生成高质量、有帮助(且无害)的响应。

  • 自指令创建:能够按照示例生成和评估新指令,再添加到自己的训练集中。

  • 这两个能力可以为了使模型能够执行自我对齐,即它们是用于使用人工智能反馈(AIF)迭代训练自身的组件。

    自指令创建包括生成候选响应,然后模型本身判断其质量——充当自己的奖励模型,取代外部奖励模型。

    这是通过LLM-as-a-Judge机制实现的:通过将响应评估制定为遵循指令的任务。

    这个由模型自行创建的AIF偏好数据被用作训练集来训练模型。

    整体自我对齐过程是一个不断迭代过程,通过构建一系列此类模型来进行,目的是每个模型都比上一个模型有所改进。

    重要的是,由于模型既可以提高其生成能力,又可以通过相同的生成机制作为自己的奖励模型,这意味着奖励模型本身可以通过迭代过程来改进,这就不同于奖励模型固定不变的传统方法。

    研究人员相信这样可以提高这些学习模型未来自我改进的潜力上限,消除限制性瓶颈。

    初始化

    种子指令跟随数据

    研究人员获得一组人工编写的(指令提示、响应)一般指令。

    他们使用这些示例从预训练的基础语言模型开始,用监督微调 (SFT) 的方式进行训练。

    种子LLM-as-a-Judge指令跟随数据

    研究人员假设他们提供了一组种子(评估指令提示、评估结果响应)示例,这些示例也可用于训练。

    虽然这并不是绝对必要的,因为使用IFT数据的模型已经能够训练LLM成为judge,而且研究人员表明此类训练数据可以提供改进的结果。

    在这些数据中,输入提示要求模型评估对特定指令的给定响应的质量。

    提供的评估结果响应包括思路推理,然后是最终分数(在研究人员的实验中,满分5分)。

    研究人员为这些提示选择的格式如下图2所示。作为LLM执行奖励模型角色的训练数据。

    这些数据被称为评估微调(EFT)数据。

    研究人员在训练期间使用这两个种子数据集。

    再用3个步骤来创建自我指令:

    -使用研究人员已经训练好的模型,研究人员可以让它自我修改自己的训练集。具体来说,就是为下一次训练迭代生成额外的训练数据。

    -生成候选响应:然后,对于给定的提示 x,研究人员生成 N 个不同的候选响应 {y, . 。。, y} 。

    -评估候选响应:最后,研究人员使用同一模型的LLM-as-a-Judge能力来评估其自己的候选响应,得分为 r∈ [0,5](见图2)。

    指令遵循训练

    训练最初是使用种子 IFT 和 EFT 数据进行的,这与奖励模型固定的标准实践不同。然后通过AI(自我)反馈添加附加数据。

    AI反馈训练

    执行自指令创建过程后,研究人员可以使用额外的训练示例来扩充种子数据,研究人员将其称为 AI 反馈训练 (AIFT) 数据。

    他们尝试了此类反馈的两种变体:

    偏好对:研究人员构建以下形式的训练数据(指令提示 x,获胜响应 y,失败响应 y)。为了形成获胜和失败对,研究人员从 N 个评估的候选答案中选取最高和最低得分的答案。

    将这些对可用于通过偏好调整算法进行训练。

    仅正面示例:在此变体中,研究人员遵循其他方法,将模型策划的(指令提示、响应)附加示例添加到种子集中,以进行监督微调。

    整体自对齐算法

    迭代训练

    研究人员的整个过程训练一系列模型。其中每个连续模型t使用由t −1模型创建的增强训练数据。

    因此,研究人员将AIFT(M)定义为使用模型M创建的AI反馈训练数据。

    M:基础预训练LLM,没有微调。

    M1:用M初始化,然后使用SFT对IFT+EFT种子数据进行微调。

    M2:用M1初始化,然后使用DPO用AIFT(M1)数据进行训练。

    M3:用M2初始化,然后使用DPO用AIFT(M2)数据进行训练。

    实验结果

    如文章开始所提到的那张图中,研究人员将微调后Llama2-70B三个迭代版本与其他先进模型在AlpacaEval2.0基准上进行了比较。

    结果显示,第三次迭代后的Llama2-70B模型打败了GPT-40613、Claude2、Gemini Pro等模型。

    此外,Llama2-70B每个迭代版本比较,改进几乎保持线性。

    研究人员通过各种指标来评估作为评估者的大模型,这些指标衡量与保留的人类偏好数据的一致性。

    自我奖励迭代2(模型M2),使用从其先前迭代M1派生的自我奖励模型进行训练,其性能优于迭代1(M1)。

    而M1本身也优于仅利用指令微调(IFT)数据训练的标准SFT基准模型。迭代3(模型 M3)比迭代2有了进一步提高。

    在这个框架之中,研究人员发现,奖励模型的性能也能随着迭代不断提高。

    模型M2使用来自M1的奖励模型进行训练,与M1相比,在所有五个指标上都体现出了更好的性能。

    例如,成对准确(pairwise accuracy)率从78.7%提高到80.4%。M3继续进一步改进了其中几个指标。

    研究人员猜测,是由于模型在指令遵循方面变得更好,因此它在LLM-as-a-Judge的任务方面也有所改进。

    网友:让开源再次伟大

    Meta和NYU的最新研究让许多人惊呼让开源再次伟大。

    俄亥俄州立大学计算机工程助理教授Yu Su表示,2024年才刚刚开始,我们已经从合成数据中看到了许多重要成果。我个人认为,这不仅仅是数据增强的改头换面。以前的数据增强工作在很大程度上依赖于人类工程,而现在更像是LLM的想象力...

    越来越多的研究表明,人工训练数据耗尽不会阻止LLM的发展。

    这是DPO的Attention Is All You Need的时刻。

    广达macbook pro生产线

    还有人表示令人惊讶的是,每次迭代的改进几乎保持线性,仅在3次迭代之后,就已经接近GPT-4级别。


    返回网站首页

    本文评论
    95后女生喝热水治胃痛查出胃癌引围观:为何只有中国人爱喝热水?
    95后女生小贾经常胃痛,上网查有说法称多喝热水就好了,于是一直习惯靠喝热水来缓解。过了半年,因为上腹痛、胃反酸等问题,小贾去医院检查,发现竟然变成了胃癌。医生表示,喝热水是不...
    日期:03-04
    2010(第三届)传媒精英讲谈社年度大讲暨2010中国商业媒体奖颁奖典礼胜利召开
           “2010(第三届)传媒精英讲谈社年度大讲”暨“2010中国商业媒体奖颁奖典礼”隆重揭幕(马海博摄)   沃华传媒网2011年1月18日讯 由沃华传媒网、广告主市场观...
    日期:07-25
    一个人,别做这样的带货号_带货号是什么意思
    声明:本文来自于微信公众号 池骋知道吗(ID:chichengknows),作者:池骋,授权转载发布。写在前面:如果你想做那种看起来特别简单、离钱近的账号,这条内容务必认真看完。经常有同学在...
    日期:10-01
    腾讯公开定时发送专利「腾讯新专利聊天信息可限时展示,利于增加交流私密性密性」
    11月25日 消息:企查查APP显示,近日,腾讯科技(深圳)有限公司申请的“一种会话消息的显示方法、相关装置、设备以及存储介质”专利公布。edge冲浪游戏更改代码小米e65a什么时候上...
    日期:11-26
    软通动力与百度达成战略合作 推动大模型应用落地「软通动力简介」
    7月19日 消息:7月18日,软通动力信息技术(集团)股份有限公司与百度举行战略合作签约仪式,双方将基于以百度智能云文心千帆大模型平台为核心的产品、解决方案,在市场拓展、集成开发...
    日期:07-19
    京东集团副总裁蔡磊负责板块「前京东副总裁、渐冻人蔡磊称:他离死亡已经非常近了」
    对于渐冻人”、渐冻症”,相信不少朋友都有所耳闻,全球至少50万渐冻人,我国就有20万,比如曾经担任京东副总裁的蔡磊,在四年前不幸患上渐冻症,一直都在顽强抗争。但是据媒体报道,蔡磊...
    日期:01-19
    一加ac2003「一加 Ace 2 Pro 手机预热:支持全新一代 Wi-Fi 7 协议」
    IT之家 8 月 13 日消息,一加 Ace 2 Pro 手机将于 8 月 16 日 14:30 发布,今日官方继续对新机预热,新机支持全新一代 Wi-Fi 7 协议。官方称,支持 Wi-Fi 7 协议的一加 Ace 2 Pro“...
    日期:08-13
    百度首席战略官辞职;小米发布「无线」AR 眼镜,视网膜级显示;苹果明年彻底放弃高通
    余正钧因个人原因辞任百度首席战略官,此前曾任首席财务官2 月 27 日,百度(Nasdaq:BIDU,09888.HK)在港交所发布公告,余正钧已因个人原因辞任公司的首席战略官职位,于 2023 年 3 月 1...
    日期:03-01
    vivo与FIRST青年电影展达成战略合作,联合开启国内首个超短片展映单元
      2020年5月7日,深圳/北京 —— 5月6日,vivo与FIRST青年电影展达成战略合作伙伴关系,联合开启全新“超短片单元”,以「不虚此刻」为主题,征集5分钟以内的短片,邀约创作者用手机...
    日期:10-19
    iPhone 14 Plus震动马达面积惊人,安卓几无一款能比,游戏手机实锤?_iphone13振动马达
    10月9日消息 iFixit拆解发现,iPhone 14 Plus搭载一块罕见的正方形震动马达体,面积远大于同系列的其它三款手机。数码博主肥威提供的参考信息显示,iPhone 14/14 Pro马达面积约18...
    日期:10-12
    白山云继续加强边缘云创新实践,赋能能源企业数字化转型
      2021中国国际清洁能源博览会已于前段时间圆满结束,但是对于能源行业数字化转型实践关注热度一直持高不下。该博览会是由中国智慧能源产业联盟参与主办的,并且博览会还邀...
    日期:08-26
    中国白帽黑客攻破Chrome、Edge、Safari浏览器(为防止中国浏览器拦截本站建议用Chrome或Safari浏览器)
      11月18日消息 11月16日至17日期间,23支来自国内外的安全战队展开了激烈对决,参加中国最大的黑客竞赛天府杯。   今年针对谷歌、微软、苹果等巨头的最新产品进行破解,参...
    日期:10-22
    同比扭亏为盈 小熊U租2022年经调整利润1094万元_小熊u租官方网站
    【】7月13日消息,小熊U租母公司凌雄科技发布了2022年度财报。2022年凌雄科技营收16.64亿元,同比增长25.1%;实现利润约9995万元,2021年为亏损4.487亿元,同比扭亏为盈;经调整利润为1...
    日期:09-21
    强强联手 国产龙芯支持鸿蒙开源系统「鸿蒙系统龙头股」
    中关村在线消息:龙芯中科宣布,在龙芯中科与润和软件共同努力下,OpenHarmony操作系统与龙芯2K0500开发板完成适配验证,龙架构平台对于OpenHarmony已形成初步支持。下一部将龙芯与...
    日期:10-20
    谷歌 Chrome 92 浏览器发布,网络钓鱼检测速度提高近 50 倍_chrome浏览器88
      7 月 21 日消息 谷歌今日向桌面用户推送了 Chrome 浏览器的 92 版本,具体版本号为 92.0.4515.107。   本次更新带来了全新的网络钓鱼检测技术,可将检测速度提高近 50...
    日期:02-18
    北大著名法律教授「北大团队发布中文法律大模型ChatLaw」
    7月4日 消息:据《科创板日报》报道,北京大学团队最近发布了名为ChatLaw的中文法律大模型,旨在为大众提供普及性的法律服务。这个模型支持接收文件和语音输入,同时能够生成法律...
    日期:07-04
    俄总理普京称:不计划打压互联网活动_俄罗斯普京新闻
      北京时间4月21日消息,俄罗斯总理弗拉基米尔·普京(Vladimir Putin)周三称,他不计划在2012年大选以前对互联网活动进行打压,希望藉此消除市场对最近有黑客攻击一个博客网站的...
    日期:07-27
    苹果终于开始告诉你 AirPods 耳机的固件更新内容了_airpods新版本的固件更新
    IT之家 9 月 13 日消息,在 iOS 16 正式版推送当日,苹果发布了一份新的支持文档,其中包含标准 AirPods、AirPods Pro 和 AirPods Max 固件更新的发行说明。苹果表示,该页面将概述...
    日期:09-17
    深圳华强北山寨机柜台“人去楼空”_深圳华强北高仿
    报道几年前,华强北一个大型商场转型成为龙胜手机批发城,那时很多人不解。随后人们看到此批发城人流熙来攘往、生意蒸蒸日上,不免感叹这个转型十分成功。可当记者前两天来到这...
    日期:07-28
    奇妙的拜年方式增加了!人民日报新媒体中心喊你来玩“AI云拜年,舞福临门”活动
      它来了它来了,2021年春节就在全网呼喊“牛转乾坤”的期待中走来了!特别的新年,特别的时间,特别过大年怎么能让拜年“一般般”?当人们纷纷响应着过年不返乡的号召时,便...
    日期:07-16