您的位置:首页 > 互联网

昆仑万维开源数字智能体研发工具包AgentStudio_昆仑万维数据分析

发布时间:2024-03-29 22:47:13  来源:互联网     背景:

【】3月29日消息,昆仑万维2050全球研究院、新加坡南洋理工大学、苏黎世联邦理工学院研究团队联手开源了数字智能体全流程研发工具包AgentStudio,旨在为研究人员和开发者提供一个覆盖智能体完整开发流程的综合性平台,让开发者们能够轻松、高效、灵活地构建专属数字智能体。

AgentStudio所提供的工具涵盖数字智能体开发的全部流程,包括智能体观察与动作空间、跨平台的在线环境支持、交互式数据收集与评估、可扩展的任务套件、以及相应的图形界面。此外,研究团队还评估了多个多模态大模型完成数字世界任务的能力。

AgentStudio是一个完全免费的开源项目,项目团队希望通过这一开源努力,与人工智能社区携手加速智能体技术发展,促进前沿知识共享与合作。目前,AgentStudio相关论文、代码、数据、文档已全部公开。(链接在文末)

AgentStudio工具包的开发,正是基于当前人工智能领域对高效、可扩展智能体开发工具的迫切需求。该工具包不仅包括了智能体观察与动作空间的定义工具,还提供了跨平台的在线环境支持,使得开发者可以在不同的平台和设备上进行智能体的开发与测试。此外,AgentStudio还支持交互式数据收集与评估,以及可扩展的任务套件,极大地增强了其实用性和灵活性。

 

昆仑万维gameark 昆仑万维gameark

昆仑万维gameark

 图注:AgentStudio架构及环境介绍

目前,全球有多种数字智能体开发工具包,支持不同的开发环境和应用领域。与现有工具相比,AgentStudio的主要优势在于:

可复现、多模态、跨平台的在线环境:AgentStudio支持通过Docker、VNC、FastAPI以及虚拟机等方式便捷地连接包括Windows、MacOS、Linux等各种操作系统与设备,相比现有环境更加注重真实落地场景。

统一的标准化的输入输出:为了支持智能体和尽可能多地各种软件进行交互,AgentStudio采用了最为通用的输入输出方式,既支持像人一样通过观察电脑屏幕的图像作为输入,操作键盘鼠标和命令行作为输出,也支持进行函数调用和使用API,达到通用计算机控制。

全面、可扩展、可组合的任务集:AgentStudio包含了在十余个应用上用于全面评估AI智能体完成指令的能力,全方位覆盖各种应用软件,如文档操作、邮件处理、日历使用、音乐播放、视频编辑器、代码编辑器等,涵盖复杂真实应用场景,同时包含了范围从单个底层操作到跨任务的组合性任务的不同难度的多级任务。AgentStudio基于该任务集,公开了相应的leaderboard。

完整的智能体数据收集与评估代码:AgentStudio的功能不仅包含了对智能体能力的评估,而且包含了完整开源的数据集收集代码,可用于人工标注数据集,也可用于智能体自行收集经验。

关注工具创造与使用:在开放域中的工具创造与使用是AI智能体的核心能力之一。以电脑为例,AgentStudio为智能体提供了最通用的三类工具:键盘、鼠标、与命令行,同时支持智能体进一步在交互过程中自行创造并复用新的工具,如用于创建、修改日历的工具集,实现智能体的不断自我提升。

交互式可视化界面: AgentStudio提供用户友好的轻量化GUI界面,帮助用户方便快捷地一键自动化创建任务并搜集数据。以下流程图将直观呈现使用AgentStudio创建任务并收集数据的过程。通过AgentStudio提供的用户友好的界面,用户可以实现跨平台的人工演示的录制,包括输入任务指令、通过交互界面得到坐标、编辑和运行代码、记录智能体轨迹等一系列功能,这些大幅简化了大规模数据收集的难度,为下一代智能体数据规模化提供了基础。

昆仑万维gameark昆仑万维starmaker

 使用AgentStudio创建任务并收集数据以及与环境交互的过程

除了搭建工具包外,研究团队还评估了多个多模态大模型完成数字世界任务的能力。为了全面评估智能体的能力,AgentStudio的结果从多个维度入手:

图形界面grounding数据集:任务仅包含单步动作,指令为不需要规划的底层操作,主要关注智能体和图形界面交互的能力;

日常任务与组合性任务集:任务完成调用复杂API,或需要多步动作、并常常需要跨软件交互。该任务集用于衡量智能体完成日常任务、以及进行复杂动作规划的能力。

AgentStudio的评测结果还进一步分析了现有多模态模型在图形界面grounding数据集表现不佳的可能原因和相应的改进方法,并衡量了模型自我评估的能力,这些都对智能体的自我提升和真实落地至关重要。根据评测结果,研究团队在论文中还讨论了若干有前景的研究方向,包括更通用的图形界面grounding模型和算法、从视频演示中学习等。

 

昆仑万维gameark昆仑万维gameark 昆仑万维gameark

从环境到智能体,从数据到评估,AgentStudio提供了一套完整的解决方案覆盖了构建智能体的全过程,将极大地加速了智能体的发展。AgentStudio的建立在研究团队对智能体、工具调用、代码解释器的深入理解与积累之上。

目前,研究人员已经开源了所有结果,包括环境的实现、智能体数据集、算法实现等,希望帮助人工智能社区搭建更多能够完成复杂任务的AI智能体。

欢迎感兴趣的研究与开发者们下载使用,并关注AgentStudio团队其他相关项目。

附:

论文标题:《AgentStudio: A Toolkit for Building General Virtual Agents》

论文链接:https://arxiv.org/abs/2403.17918

项目主页与文档:https://skyworkai.github.io/agent-studio/

oppo第二季度销量

开源代码:https://github.com/SkyworkAI/agent-studio

Leaderboard:https://huggingface.co/spaces/Skywork/agent-studio-leaderboard

 


返回网站首页

本文评论
性能稳了!iQOO 11S搭载第二代骁龙8:16GB   1TB组合加持_iqoo11上市时间
今晚19:00,iQOO新品发布会如期而至,iQOO 11S带来了三种配色,除了颜值外,在性能上iQOO 11S也非常出色。三星s7平板发布iQOO 11S搭载了第二代骁龙8、 LPDDR5X运行内存和UFS 4.0闪...
日期:07-05
奥的斯电梯公司百科「刷新数字化时代乘梯体验,奥的斯以创新助力智慧城市建设」
作为智慧城市的重要支撑,数字化正在推动各行各业迎来前所未有的发展机遇,让城市更聪明、更智慧。抱着持续创造高品质美好生活的愿景,近期,奥的斯携全新Gen360™智能电梯和公共交...
日期:11-27
黑客暗网叫卖数千个Disney+账户,每个售价3美元
  11月19日消息据外媒报道,刚刚上线,就有成千上万的Disney+用户帐户被黑客窃取,并在暗网上出售。   Disney+是迪士尼于上周二正式启动的一项新的基于订阅的流媒体服务,在...
日期:01-25
小米C级高性能生态科技轿车 小米SU7正式亮相_小米汽车参数
12 月 28 日,小米汽车技术发布会在国家会议中心盛大举行,五大自研核心技术重磅发布,首款车型小米SU7 也在发布会上同步亮相,该车定位“C级高性能生态科技轿车”,是“科技大厂”小...
日期:12-28
双十二在即 苏宁喜临门共谋2020合作大计_苏宁2020年双11活动
  12月2日,喜临门家具股份有限公司副总裁陈一铖带队抵宁,与苏宁易购总裁侯恩龙、苏宁厨卫家装公司总裁助理刘志阳进行会晤。   双方在对2019年工作进行回顾的基础上,制定...
日期:01-06
马斯克和推特CEO取证时间推迟_推特马斯克最新消息
  讯 北京时间9月27日消息,马斯克与推特因为收购纠纷闹到法庭,按照原计划,周一马斯克与推特CEO帕拉格·阿格拉瓦尔(Parag Agrawal)将会接受质询,完成取证。但知情人士透露,取证已...
日期:09-28
独立开发变现周刊(第101期):年收入240万美元的聊天产品
声明:本文来自于微信公众号凯凯而谈(ID:web-bear),作者:凯凯刘,授权转载发布。分享独立开发、产品变现相关内容,每周五发布( ezindie.com/weekly)。目录1、ridea: 全功能的 Blog 工...
日期:08-25
魅族公测「我是魅族星测官活动报名正式开启_15部魅族21等你来参与」
来源:中关村在线12 月 15 日,魅族第四期我是魅族星测官活动正式开始,这一次官方为星测官们准备了整整 15 台全新魅族 21,目的为招募有想释放自己的科技热情、深度参与魅族 21 的...
日期:12-16
短胖小尺寸机身+直角中框」-单手轻松握持 「一加Open渲染图曝光「一加超薄手机」
近年来随着技术的不断成熟,以往折叠屏机型上广为诟病的痛点逐一得到解决,各大手机品牌旗下的折叠屏手机也进行着不断地迭代升级,体验已经越来越接近常规直屏旗舰,而与此同时还有...
日期:09-09
1688官方物流服务2023年春节放假时间表出炉_1688春节发货时间
1月3日 消息:今日,1688官方物流服务2023年春节放假通知发布,2023年1月15号-1月30号期间,1688官方物流服务全部放假。1688官方表示,2023年春节将至,1688官方物流服务春节期间将陆...
日期:01-03
移动广告市场崛起 应用程序开发者受益(移动应用开发行业发展趋势)
  一款名为《切水果》的游戏在智能终端用户中流传甚广,在短时间内下载量就达到了1000万。虽然《切水果》是模仿iOS平台的《水果忍者》而来,但它已经让开发者——浙江大学计...
日期:07-22
门店月入30万,不推销、不办卡的男士理发馆凭什么赚钱?_理发店办卡有必要吗
声明:本文来自于微信公众号 创业最前线(ID:chuangyezuiqianxian),作者:李小反,授权转载发布。男士剪一次头发要花多少钱?“40多元吧。”90后白领林晨说道,“这几年北京理发涨得厉害,...
日期:10-04
首次入选道琼斯可持续发展指数!网易ESG报告出炉,成果获众多权威认可
4月28日,网易发布2022年ESG报告。报告显示,2022年,网易以技术驱动数字内容、服务品类的创新拓展,丰富自身产品组合,各项经济指标继续保持正向增长,自2013年起至2022年末,已累计回购...
日期:04-28
瑞瀛物联举办十周年庆典 发布REXBEE快速开发套件与融合网关方案
  5月28日下午,瑞瀛物联十周年年度盛典在杭州良渚君澜度酒店成功举办,本次活动瑞瀛磅重发布革新智能家居行业的两大重磅产品:REXBEE Zigbee快速开发套件与瑞瀛融合网关方案,...
日期:06-01
新发现!小红书排行榜笔记正入侵各大品类_小红书有一篇笔记火了
声明:本文来自于微信公众号 江河聊营销(ID:jiangheliaoyingxiao),作者:江河Team,授权转载发布。三星手表智能手机如果你经常刷小红书,一定经常刷到类似的笔记,将品类下的品牌分为...
日期:11-03
展现音画质巅峰实力,TCL经评估荣获2020年企业标准“领跑者”!_TCL电视音质
  TCL作为位居彩电品牌排行榜前十名的电视品牌,一直以来,致力于为广大消费者提供高品质的彩电产品和优质的服务。近日,2020年度国家首次对电视机企业进行“领跑者”评比工作...
日期:07-16
哈啰单车坏了_哈啰单车崩了?官方回应:已修复,受影响用户补偿1天骑行卡
讯 8月15日上午消息,今日早间,有许多网友在社交平台反馈称,哈啰单车崩了,手机无法扫码解锁车辆,由于正好是周一早高峰,不少用户出行受到影响。对此,哈啰在其官方微博回应表示,由于第...
日期:08-15
iPhone 15 Pro和iPhone 15 Plus GPU跑分曝光:A17 Pro比A16高出30%
近日,iPhone 15 Pro和iPhone 15 Pro Max的GPU跑分在GFXBench 5.0数据库中曝光,结果显示,两款手机的GPU跑分比前代产品最多高出30%。iPad出货量惠普暗影精灵i5 8300游戏测试GFXB...
日期:09-20
让焦虑少一点轻松多一点!如流助力打工人轻松回归工作
  开工大吉!节后第一个工作日登上热搜的是这四个字——“不想上班”,看到这讨论量仿佛看到了对“上班”浑身写着拒绝的你。   网页打开十几个不知道要看什么,表格打开半...
日期:07-16
网易公布2023年Q3财报:网易邮箱持续投入产品创新_网易2020q3财报
11 月 16 日,网易发布 2023 年Q3 财报。三季度,网易业绩稳健,净收入 273 亿元。非公认会计准则下,归属于公司股东的持续经营净利润 86 亿元;单季研发投入 43 亿元,今年前三季度研...
日期:11-17