您的位置:首页 > 互联网

北大等发布最新AI智能体Jarvis-1,制霸我的世界_我的世界智能ai模组

发布时间:2023-12-08 22:18:00  来源:互联网     背景:

声明:本文来自于微信公众号 新智元(ID:AI_era),作者:新智元,授权转载发布。

【新智元导读】北大、北邮、UCLA和BIGAI的研究团队联合发布,智能体新突破——Jarvis-1.

智能体研究又取得了新成绩!

最近,来自北大、北邮、UCLA和BIGAI的研究团队联合发表了一篇论文,介绍了一个叫做Jarvis-1的智能体。

论文地址:https://arxiv.org/pdf/2311.05997.pdf

从论文标题来看,Jarvis-1的Buff可谓拉满了。

它是个多模态+记忆增强+多任务处理的开放世界语言模型,玩儿我的世界游戏堪称一绝。

图为Jarvis-1解锁我的世界科技树

在论文摘要中,研究人员表示,在开放世界,通过多模态来观测并实现类人的规划能力以及控制能力,是功能更强的通用智能体的一个重要里程碑。

要知道,用现有的方法确实可以处理开放世界中的某些长线任务。然而,开放世界中的任务数量可能是无限的,这种情况下传统方法就会很吃力,而且还缺乏随着游戏时间的推移,逐步提高任务完成度的能力。

Jarvis-1则不一样。它能感知多模态输入(包括自我观察以及人类指令),生成复杂的计划并执行嵌入式控制。所有这些过程都可以在开放的我的世界游戏中实现。

下面咱们就来看一看,Jarvis-1和别的智能体究竟有什么不一样。

实现过程

具体来说,研究人员会在预先训练好的多模态语言模型基础上开发Jarvis-1,将观察和文本指令映射到计划中。

这些计划最终会分派给目标条件控制器。研究人员为Jarvis-1配备了多模态的存储器,这样它就能利用预先训练好的知识和实际游戏的经验进行相应规划。

在研究人员的实验中,Jarvis-1在我的世界基准的200多个不同任务(初级到中级)中表现出了近乎完美的性能。

举例来说,Jarvis-1在合成钻石镐的长线任务中,完成率达到了惊人的12.5%。

这个数据表明,和之前的记录相比,Jarvis-1在钻石镐任务中的完成率大幅提高了5倍,远远超过之前SOTA级别的VPT处理这个任务的完成率。

此外,论文中还展示了Jarvis-1通过多模态记忆,能做到在终身学习范式下进行自我完善,从而激发出更广泛的智能并提高自主性。

在文章开头的那个解锁技能树图片里,Jarvis-1可以稳定获得我的世界主科技树上的大量高级物品,如钻石、红石和黄金等等。

我的世界人工智能

要知道,想要获得这些物品需要收集10多种不同的中间物品才可以。

下图更加直观地展示了开放世界的环境中有哪些挑战,以及Jarvis-1是如何应对这些挑战。

最左侧,与不采用情境感知规划的GPT相比,采用该方法的Jarvis-1大幅提高了在获取钻石任务中的成功率,这个任务十分具有挑战性。蓝色的是人类的完成率,受实验条件所限,只统计了10分钟。

中间的图示是随着任务复杂度的增加(石头→铁矿→钻石),Jarvis-1通过交互式规划表现出了显著的优势。和GPT的表现相比好出太多。

右侧为Jarvis-1从多模态记忆中检索到的其它任务(y轴所示)的上下文经验,在选定任务(x轴所示)上的成功率提高了多少(用颜色的深浅来表示)。

可以看出,通过终身的学习和记忆,Jarvis-1可以利用先前在相关任务上的经验来改进对当前任务的规划。

说了这么多性能上的优势,Jarvis-1有如此好的表现以及超越GPT的性能,归功于以下三点:

- 从LLM到MLM

首先,我们知道,感知多模态感官输入的能力,对于在动态和开放世界中模型进行规划至关重要。

Jarvis-1通过将多模态基础模型与LLM相结合,实现了这一点。与盲目生成计划的LLM相比,MLM能够自然地理解当前情况并制定相应的计划。

此外,还可以通过多模态感知获得丰富的环境反馈,从而帮助规划者进行自我检查和自我解释,发现并修复计划中可能存在的错误,实现更强的交互式规划。

- 多模态记忆

过去的一些研究表明,记忆机制在通用智能体的运作中发挥着至关重要的作用。

研究人员通过为Jarvis-1配备多模态记忆,可以有效地让它利用预先训练的知识和实际经验进行规划,从而显著提高规划的正确性和一致性。

与典型的RL或具有探索能力的智能体相比,Jarvis-1中的多模态记忆使其能够以非文本的方式利用这些经验,因此无需额外的模型更新步骤。

- 自我指导和自我完善

通用智能体的一个标志,就是能够主动获取的新经验并不断进行自我完善。在多模态记忆与探索经验的配合下,研究人员观察到了Jarvis-1的持续进步,尤其是在完成更复杂的任务时更是如此。

Jarvis-1的自主学习能力标志着这项研究向通用智能体迈出了关键一步,这种智能体可以在极少的外部干预下不断学习、适应和改进。

主要挑战

当然,在实现开放世界游戏的过程中,肯定也会遇到很多困难。研究人员表示,困难主要有三个。

第一,开放世界就意味着,想要完成任务并不是只有一条通路。比方说,任务是做一张床,智能体既可以从羊身上收集羊毛来做,也可以收集蜘蛛网,甚至还可以直接和游戏里的村民NPC交换。

那么究竟在当下的情况下选择哪种途径,就需要智能体具有审时度势的能力。换言之,要对当下的情况有一个比较不错的把握,即情景感知(situation-aware planning)。

在实验过程中,智能体有些时候会出现判断有误,导致任务完成效率不高甚至失败的情况出现。

第二,在执行一些高复杂度的任务时,一个任务往往由大量小任务组合而成(20+个)。而每个小任务的达成也不是那么容易的事,条件往往比较苛刻。

比如上图中,做一个附魔台,就需要用钻石搞挖三个黑曜石。而怎么做钻石镐又是个麻烦事。

第三,就是终身学习(lifelong learning)的问题。

毕竟,开放世界中的任务数不胜数,让智能体预先全部习得显然不现实。这就需要智能体不断在规划的过程中进行学习,即终身学习。而Jarvis-1在这方面的表现已经在上一部分有所提及。

整体框架

Jarvis-1的整体框架如下图所示。

下图左侧包括一个记忆增强的多模态语言模型(MLM)和一个低级的行动控制器(controller),前者可以生成计划。

同时,Jarvis-1还能利用多模态存储器存储和获取经验,作为进一步规划的参考。

可以看到,下图中间部分就是Jarvis-1如何利用MLM生成计划的流程图,十分简洁易懂。

在收到任务后,MLM开始提供一些建议,发到planner,最终生成计划。而多模态记忆库可以被随时调用,新生成的计划也会被作为学习的内容储存进去。

最右侧即为Jarvis-1自我学习的流程图。

举个例子来看,现在输入一个获取钻石矿的任务。

MLM这就开始计划了——右侧最上部的绿框即为初始计划,自检后发现有物品的缺失,于是调整了计划,更正了要获取的物品的数量。

接着多模态模型进行反馈,执行的过程中发现任务失败,随机自检当下的状态,比如镐子坏了。再一看库存,还有能生成镐子的原料,开干。当然,这一步还有个自我解释的环节(self-explain)。

最终,生成新计划,任务终于完成。

下图展示了Jarvis-1是如何生成查询结果的。

首先会考察当下的观察结果和任务,Jarvis-1会首先进行逆向思维,找出所需的中间子目标。

当然,推理的深度是有限的。记忆中的子目标将与当前的观察结果结合起来,再形成最终的查询结果。

再将与文本查询相匹配的条目根据其状态与观察查询的感知距离进行排序,而后只有每个子目标中最靠前的条目才会被检索到。

在实验环节,研究人员选用的任务都出自最近推出的我的世界基准。

实验开始前,相关设置如下:

三星Neo QLED 8K

环境设置~为确保游戏逼真,智能体需要利用与人类类似的观察和行动空间。研究人员没有像以往的方法那样为模型与环境交互手动设计自定义界面,而是选择使用了我的世界提供的原生人类界面。

我的世界人工智能

这既适用于智能体进行观察,也适用于行动。该模型以每秒20帧的速度运行,而且与人类图形用户界面交互时需要使用鼠标和键盘界面。

- 任务设置

在我的世界中,玩家可以获得数千种物品,每种物品都有特定的获取要求或配方。在生存模式中,玩家必须从环境中获取各类物品,或者用材料制作/熔炼物品。

研究人员从 我的世界基准中选择了200多个任务进行评估。为便于统计,研究人员根据我的世界中的推荐类别将其分为11组,如下图所示。

由于这些任务的复杂程度不同,团队对每个任务采用了不同的最大游戏持续时间。

- 评估指标

在默认情况下,智能始终玩生存模式,初始库存为空。

如果在指定时间内获得目标对象,则视为任务成功。由于我的世界的开放性特点,智能体启动时所处的世界和初始位置可能会有很大不同。

因此,研究人员使用不同的种子(类似于一个地图生成码)对每个任务进行了至少30次的测试,并反馈平均成功率,以确保进行更加全面的评估。

下图左侧展示了Jarvis-1的游戏成功率。还和VPT模型进行了比较。

右侧则展示了Jarvis-1在执行任务中,一些中间物品的获取成功率。可以看到,随着时间的推进,成功率还是非常高的。

参考资料:

https://arxiv.org/pdf/2311.05997.pdf


返回网站首页

本文评论
AI前哨 | 安全、GPT5 、超强AI OpenAI CEO山姆·奥特曼中国首讲三大重点
凤凰网科技讯 《AI前哨》6月10日,在2023智源大会上,OpenAI联合创始人兼CEO Sam Altman作为连线嘉宾首次在中国发表演讲,他与北京智源理事长张宏江的对话中提到人工智能发展的特...
日期:06-12
《星际2》火爆上线 360杀毒截获“战网窃贼”
  近日,暴雪游戏经典续作《星际争霸2——自由之翼》终于开始上线运营,成为众多玩家最关注的游戏之一。与此同时,瞄准这款热门游戏的盗号木马也蜂拥而至,有玩家在下载“星际2...
日期:07-27
三星 Galaxy Z Fold 4 开启安卓 13 / One UI 5.1 内部测试_三星fold2 oneui3.0
IT之家 1 月 4 日消息,三星正准备在 2 月初推出 2023 年旗舰手机 ——Galaxy S23 系列。三星 Galaxy S23 系列将预装基于 Android 13 的 One UI 5.1 系统。与此相呼应,三星已...
日期:01-04
曾逃离北上广深的年轻人又回来了 适应不了小镇生活
北上广深成为热门话题是因为生活成本高、工作压力大、快节奏的工作生活难以承受,很多年轻人逃离一线城市。但实际上,许多离开北上广深的人很快又回去了。华为新款5g手机恒大汽...
日期:04-19
 飞猪与万达酒店及度假村实现会员互通_飞猪酒店会员一定要开通吗
7月19日消息,近日,飞猪与万达酒店及度假村实现会员互通。据悉,这也是万达酒店及度假村首次向合作伙伴开放打通会员等级。华硕笔记本电脑灵耀14s据透露,合作达成后,飞猪会员都将有...
日期:08-28
中国移动全球合作伙伴大会亮点抢“鲜”看!_中国移动全球合作伙伴大会,今年是的形式
通信世界网消息(CWW)风起南海,潮涌珠江。10月11日,2023中国移动全球合作伙伴大会在广州开启。自2013年以来,中国移动全球合作伙伴大会已成功举办10届,成为中国移动规格最高、规模...
日期:10-12
「称苹果换用USB-C接口令人费解 「罗永浩质疑苹果伟大又不要脸」」
来源:中关村在线金色特斯拉model siphone 13卫星通信近日,罗永浩在直播平台上评价了iPhone 15采用USB-C接口的决定,表示苹果公司为何能如此伟大又如此“不要脸”令人费解。罗永...
日期:09-18
Chinese Sports Technology Brand Keep and Fitness Brand Zumba(R) to Hold Strategic Collaboration Conf
  BEIJING, June 8, 2020 /PRNewswire/ -- On May 30, sports technology brand Keep and world's leading brand Zumba® Fitness held a unique online global press c...
日期:07-14
iphone15promax「郭明琪:iPhone15 Pro和PM将继续实体按键」
根据苹果分析师郭明琪分享的最新信息,下一代iPhone 15 Pro和iPhone 15 Pro Max将不再配备固态按钮,原因是 "在大规模生产前尚未解决的技术问题"。郭明錤早在10月份就表示,iPhon...
日期:04-13
特斯拉得克萨斯工厂已生产出第20000辆Model Y 近43天生产10000辆「特斯拉工厂日产量」
10月31日消息,据国外媒体报道,在9月17日生产出第10000辆Model Y之后,产能不断提升的特斯拉得克萨斯超级工厂,又迈上了新台阶,已经生产出了第20000辆Model Y。华为折叠屏现在最便...
日期:11-03
让传统空调秒变智能 | 中弘第五代智能空调面板P15米家版&涂鸦版评测_中宏空调网关
文/智能头条当前,空调已经进入千家万户,在炎热的夏季,为用户带来凉爽的冷气,为生活增添无尽的乐趣。但随着智能化的普及,人们便开始思考,如何让传统空调变得更加智能,让生活更加方...
日期:10-08
iphone12pro相机几倍「iPhone 14 Pro相机成本高昂:苹果大概率要涨价」
8月31日消息,据分析师郭明錤爆料,苹果iPhone 14 Pro相机成本大涨,因此苹果大概率要提高iPhone 14 Pro售价。据悉,iPhone 14 Pro除了主摄升级到4800万像素之外,还升级了超广角镜头...
日期:09-07
澳大利亚从 2024 年起将允许包括 ChatGPT 在内的人工智能在所有学校使用
10月12日消息:在澳大利亚教育部长正式支持指导新技术使用的国家框架后,从 2024 年起,包括 ChatGPT 在内的人工智能将被允许在所有澳大利亚学校使用。乐信发布q3财报全国各地的...
日期:10-12
中国联通与柬埔寨邮电部签署合作声明
通信世界网消息(CWW)2023年10月17日,在第三届“一带一路”国际合作高峰论坛“企业家大会”活动上,中国联通与柬埔寨邮电部就柬埔寨西港—中国香港海底光缆项目的登陆合作签署了...
日期:10-18
微软谷歌等巨头都在大幅裁员 赚钱也要勒紧裤腰带过日子
3月24日消息,今年以来,从微软和谷歌到亚马逊、SAP等全球科技巨头已经解雇了数千名员工,尽管这些公司中的大多数都还在盈利。美国投行Jefferies在一份报告中表示:“裁员是疫情期...
日期:10-05
工信部孙姬:期待5G RedCap芯片的推出_工信部孙昊
通信世界网消息(CWW)在2023年中国国际信息通信展览会期间的第四届5G千兆网产业论坛上,工信部通信司网络技术处处长孙姬指出,期待5G RedCap芯片的推出,进一步在提质、增效、降本方...
日期:06-06
天玑曲面屏之王!vivo X90s上架:首批搭载天玑9200「vivo手机天玑900」
快科技6月22日消息,vivo京东自营店显示,vivo X90s已上架接受预约,新品提供青漾、至黑、告白和华夏红四种配色,有8GB 256GB、12GB 256GB和12GB 512GB三种选择。不仅如此,vivo X90s...
日期:06-22
天猫双十一销售榜单「今年双11天猫82家品牌会员成交额破亿」
11 月 3 日消息,天猫发言人官方微博今日发布天猫会员成交过亿俱乐部名单。今年天猫双11, 82 家品牌会员成交额破亿; 2700 家知名品牌的成交额中,50%以上来自会员,超四千家品牌会...
日期:11-07
谷歌收购的公司_谷歌收购社交分析创业公司SocialGrapple
  10月11日下午消息,据美国科技博客VentureBeat报道,谷歌已经收购了社交分析创业公司SocialGrapple,具体交易条款尚未披露,这表明谷歌希望提升其社交网络Google+的分析追踪能...
日期:07-23
小米3s什么时候上市「小米3s什么时候上市」
小米公司在2016年6月发布了小米3s手机,这款手机是小米3的升级版,采用了全新的金属外壳设计,具有更好的手感和更高的品质感,成为小米手机中的一款经典之作。那么,小米3s上市时间是...
日期:05-31