您的位置:首页 > 互联网

多模态模型学会打扑克:表现超越GPT-4v,全新强化学习框架是关键

发布时间:2024-06-04 19:36:33  来源:互联网     背景:

声明:本文来自于微信公众号 量子位 (ID:QbitAI),作者:Simon Zhai ,授权转载发布。

只用强化学习来微调,无需人类反馈,就能让多模态大模型学会做决策!

这种方法得到的模型,已经学会了看图玩扑克、算“12点”等任务,表现甚至超越了GPT-4v。

这是来自UC伯克利等高校最新提出的微调方法,研究阵容也是相当豪华:

  • 图灵奖三巨头之一、Meta首席AI科学家、纽约大学教授LeCun

  • UC伯克利大牛、ALOHA团队成员Sergry Levine

  • ResNeXt一作、Sora基础技术DiT作者谢赛宁

  • 香港大学数据科学学院院长、UC伯克利教授马毅

该方法名为RL4VLM,论文预印本已经上线,相关代码也已在GitHub中开源。

RL4VLM提出了一种新的算法框架,直接使用强化学习方法对多模态大模型进行微调。

其中奖励信息直接来源于环境当中,摆脱了RLHF中对于人类反馈的需要,从而直接赋予了多模态模型决策能力。

对于RL4VLM的意义,参与了这项工作的马毅教授这样说:

一方面希望大家对模型真实性能有更客观清醒的认识;

另一方面,也希望能建立一个平台,支持探索如何进一步提升模型性能。

那么,用这种方法微调出来的多模态大模型,都能让智能体学会哪些能力呢?

多模态决策能力超GPT-4v

为了评估训练出的多模态大模型给智能体带来的能力,作者一共使用了两类物种评测任务:

  • 第一类任务(a-d) 主要考验模型利用图像中的细粒度视觉信息做决策的能力,包括对于数字的识别能力和利用识别的数字进行逻辑推理的能力

  • 第二类任务(e)主要考察多模态大模型在具身智能环境中的视觉语义推理能力。

具体来说,这五个任务分别是:

顺丰上门修手机怎么样

  • a.数轴(Numberline):模型需要通过输出“+” 或者 “-”,将当前数字移动到目标数字

  • b.简易12点(EZPoint):模型需要识别两张牌,并用加号和乘号运算“12点”

    • c.24点(Point24): 模型需要识别四张牌,并用加减乘除和括号运算“24点”

  • d.21点(Blackjack):模型需要通过牌面上的信息来决定“要牌”或者“停牌”

  • e.ALFWorld:一个标准具身智能环境

其中任务a-d为作者的原创任务,任务e的ALFWorld是微软等于2020年提出的开源具身智能任务集。

实验结果表明,直接使用强化学习微调7B的多模态模型之后,能使其在两类决策问题上的表现超过商用模型GPT-4v Gemini,同时也能超过传统的监督微调(SFT)方法。

而在ALFWorld的具身智能任务中,作者的模型也取得了最高的平均分,特别是在单物体拾取任务上表现尤为突出。

先生成思维链,再做决策

这套VLM智能体主要解决的是需要视觉识别和语言理解的任务,它的工作流程是这样的:

首先,对于每一个任务,系统会直接将该任务的当前状态,以图片和文字描述的形式输入多模态大模型,并要求模型输出一段思维链之后,再以文字形式输出要执行的动作。

最后将,动作信息会被输入进对应的环境并获得奖励值,该奖励值会被用来进行强化学习训练。

例如下图中,智能体在执行玩21点的任务时,系统直接要求多模态模型根据目前的状态,在输出思维链之后选择“停牌” (stand)或者“拿牌”(hit),然后直接将对应的动作输入到环境中,得到奖励函数值以及下一个状态。

为了能用直接将强化学习运用到多模态模型的训练中,需要对模型的输入和输出做一些调整,以适应RL训练框架中。

具体来说,作者将任务图像o和任务描述的文本v-in合并后,直接作为当前任务的状态s,即:

s = [o, v-in]

在获得了多模态模型的文字输出v-out以后,该框架直接将其中文字形式的动作(“action: {act}”) 转化为可与环境交互的动作指令a。

接下来把a输入到环境当中,就能获得奖励函数r,以及操作后的下一个状态。

在获得了来自环境的奖励函数r之后,文章利用PPO直接对整个多模态模型进行微调。

而从提示词上看,这项研究采取了如下的提示过程作为多模态模型的输入,并且给出了期望的输出形式:

(其中蓝色的部分是让模型生成思维链提示过程, 红色的部分是告诉模型以文字形式输出动作a)

消融实验结果表明,如果这一过程中不采用思维链,则任务成功率会出现大幅下降。

论文地址:

https://arxiv.org/abs/2405.10292

GitHub:

https://github.com/RL4VLM/RL4VLM

—完—


返回网站首页

本文评论
诺领科技人去楼空 物业称已搬离月余
记者/武超   网传曾完成2亿元B轮融资的IC设计企业诺领科技疑似倒闭,《科创板日报》记者实地探访了该公司位于南京江北新区研创园的办公地址,发现公司工作人员均已撤离,多数设...
日期:07-31
木卫六获愉悦资本数百万美元天使轮融资,要用内容解决运动枯燥问题
  10月29日消息,健身科技公司「木卫六」宣布完成了来自愉悦资本的数百万美金天使轮投资。本轮融资将重点投入到产品研发、内容建设、门店开设和全球扩张。   「木卫六...
日期:03-14
特斯拉召回3470辆汽车:广东又现失控连撞多车冲毁店门 潮州事故争议还在
3月4日,据美国国家公路交通安全管理局消息,特斯拉召回3470辆美国汽车。近段时间,国内有关特斯拉的声音比较多,大家热议更多的还是它的安全性,毕竟潮州等接二连三的事故出现,让人真...
日期:03-05
来画Perfoo:上帝视角的创意演示工具,颠覆你对演示的想象!
  开头先问大家一个问题:   这么多年来,你是不是每次都是用Powerpoint做汇报演示?   却往往发现自己辛辛苦苦做的PPT,不仅没有Power,也没有Point,甚至成为了催眠神器...
日期:05-13
金融科技行业整体投资下降,但对人工智能的兴趣上升_金融科技对金融业态的影响
本文概要:1. 全球金融科技融资额在2023年上半年下降17%,但人工智能领域的兴趣持续增长。2. 亚太地区金融科技公司的投资额降至51亿美元,远低于2022年上半年的纪录。3. 人们对...
日期:08-03
外媒称赞!华为Mate 60 Pro昆仑玻璃比康宁大猩猩更强
  【手机中国新闻】对于一款手机来说,最脆弱的部分可能就是它的屏幕了,而为了更好的保护手机屏幕防止因为碎屏而导致高额的维修费用,不少手机厂商都使用了更加坚固的保护玻璃...
日期:09-19
好未来二季度净利润1500万美元 公司股价跌超11%_好未来第三季度财报
10月23日消息,好未来公布其截至2020年8月31日的2021财年第二季度未经审计财务报告。二季度,好未来净收入11.033亿美元,同比增长20.8%;归属于好未来的净利润为1500万美元,上年同...
日期:08-07
广告商正在重返Twitter?分析称现实并没有马斯克说的那么好
4月14日消息,埃隆·马斯克(Elon Musk)表示广告商正在重返Twitter,但多家公司的声明和市场研究公司的数据表明,复苏的速度并不如人意。本周,马斯克告诉英国广播公司BBC,大多数广告商...
日期:04-14
今日油价国六「国六B油品质量不缩水!国内油价将迎2023年首降:加满一箱约省8元」
1月17日24时,国内新一轮成品油调价窗口将开启。这是2023年国内成品油第二次调价。继上轮价格上调后,机构预计,本轮成品油或呈下跌走势。这意味着,成品油价格有望在春节前下调。...
日期:01-17
微软公司鲍尔默_鲍尔默:微软中国营收近20亿美元 仍不及荷兰
华为mate30停产了吗联想z5 pro测评 多少钱能收购苹果公司麒麟810发热吗 百度影音beta 5发布 字幕功能给力呈现 小盒子大世界 4399游戏盒精彩游戏无限量 iphone拆电池起火...
日期:07-28
应对ChatGPT挑战 谷歌拟将AI植入所有产品和服务中「google ai platform」
3月9日消息,谷歌向来以长期押注于各种未来技术而闻名,而当前爆火AI聊天机器人所需的大部分技术都曾在其实验室中被研究过。然而,一家名为OpenAI的初创公司在去年11月推出了Chat...
日期:03-09
特斯拉对撞测试「真“公路坦克”!特斯拉Cybertruck碰撞测试曝光:车身基本保持完好」
快科技12月13日消息,据外媒报道,特斯拉Cybertruck的碰撞测试正式曝光。据悉,该车共进行了三场碰撞测试,分别是正面碰撞、侧面碰撞以及翻滚测试。华为5g专利技术从图中可以看到,在...
日期:12-13
5g手机怎么没有5g开关「5G 开关没了,以后手机都不让选 4G 了?」
这两天,有关 “ 多家手机厂商取消 5G 开关 ” 的新闻,一时间冲上了各大社交平台的话题榜。苹果十月发布会最新消息起因是有细心的网友发现,自己的手机最近在系统更新之后,原先在...
日期:11-13
五一假期首日服务区充电站排队时长榜来了:充电要等2.7小时你接受吗?
快科技4月30日消息,今天是五一”假期第二天,热门旅游城市、热门景区开启人挤人”模式,对自驾的游客来说,最担心的可能就是服务区充电问题。2020年显示器出货量日前,百度地图发布...
日期:04-30
ai 电商「AI带货成为新热潮 行业巨变你准备好了吗?」
24年,“增长”更难了。面对日益成熟的电商平台,电商经营呈现出多元性、复杂性的趋势。一方面,流量红利消退,获客成本越来越高;另一方面,竞争内卷加剧,“价格力”、“供应链”、“...
日期:04-02
实体店抖音运营_实体商家纷纷转战抖音,美团、阿里主导的本地生活市场生变?
记者/肖芳   如果不是因为疫情,位于上海的连锁按摩店感智盲人按摩不会如此迫切的到线上寻找客源。   上海疫情期间,感智盲人按摩的门店停业超过两个月,除了营收大幅下降之...
日期:07-31
首搭车型4月上市 哪吒汽车宣布携手360共同发布大模型产品NETA-GPT
【】3月1日消息,从官方获悉,近日,哪吒汽车和360公司签署战略合作协议,共同发布大模型产品NETA GPT,将360智脑、搜索和数字人等先进AI技术应用在座舱等领域。据悉,NETA GPT将首先搭...
日期:03-01
电商清仓怎么清「电商巨头,掀起“清库存”大战」
声明:本文来自于微信公众号价值星球Planet(ID:ValuePlanet),作者|梓陌,编辑| 唐飞,授权转载发布。抖音也开始打“低价”的主意了。近日,抖音推出了一家名为“超便宜的小店”的店铺...
日期:06-06
马斯克发文让特斯拉市值蒸发140亿「马斯克在 2018 年私有化特斯拉推文的官司中胜诉」
IT之家 2 月 4 日消息,据路透社报道,美国陪审团周五裁定特斯拉首席执行官埃隆・马斯克(Elon Musk)及其公司不对误导投资者承担责任。此前,马斯克在 2018 年发推文称他已为公司私...
日期:02-04
k70和kp「1999元起!一文看懂Redmi K70/K70 Pro/K70E区别在哪」
快科技11月29日消息,今日晚间,Redmi K70系列正式发布,带来K70E、K70、K70 Pro三款机型,起售价分别为1999元、2499元、3299元。那么,三款机型主要区别有哪些呢?据了解,Redmi K70系列...
日期:11-30