您的位置:首页 > 互联网

可操控终端设备的大模型:引领RPA行业变革_操控功能可整合为三种模式

发布时间:2024-12-19 17:07:18  来源:互联网     背景:

通信世界网消息(CWW)随着人工智能技术的飞速发展,大模型在各个领域展现出强大的能力。其中,可操控终端设备的大模型更是为RPA(机器人流程自动化)行业带来了革命性的变化。本文将介绍Anthropic的Claude 3.5 Sonnet、智谱的AutoGLM以及微软的OmniParser框架三种可操控终端设备的大模型,并探讨其对传统RPA行业的影响以及未来发展趋势。

120迈一秒多少米怎么算公式

引言

RPA(机器人流程自动化)作为一种通过模拟人类前台操作来执行重复性任务的技术,近年来在各个行业得到广泛应用。然而,传统的RPA技术难以适应复杂场景。随着可操控终端设备的大模型的出现,传统RPA行业将会收到新技术的冲击。

可控终端是什么意思

在电影《钢铁侠》中,我们看到了一个令人印象深刻的智能助手——贾维斯,它是一个能够理解自然语言、执行复杂任务的人工智能系统,它不仅能够控制钢铁侠的装备,还能够进行信息检索、数据分析、辅助决策等。

如今,随着可操控终端设备的大模型的出现,“贾维斯”式的智能助手已经不再是遥不可及的梦想。Anthropic的Claude 3.5 Sonnet、智谱的AutoGLM以及微软的OmniParser框架等大模型,已经具备了部分类似“贾维斯”的功能。它们能够理解用户的自然语言指令,并执行相应的操作。这些大模型的出现,标志着人工智能技术正在从简单的自动化工具向智能化的助手转变。

本文将介绍Anthropic的Claude 3.5 Sonnet、智谱的AutoGLM以及微软的OmniParser框架三种可操控终端设备的大模型,并探讨其对RPA行业的影响以及未来发展趋势。

可操控终端设备的大模型

Claude 3.5 Sonnet

Anthropic的Claude 3.5 Sonnet是一个基于Transformer架构的预训练语言模型,拥有1750亿参数。其具备强大的自然语言理解能力,新增的 “computer use” 功能,能够理解用户的指令并执行相应的操作,让其能够如同人类一般与电脑进行交互,例如打开应用程序、浏览网页、输入文本等。在 OSWorld 基准测试平台上,Claude 3.5 Sonnet 在仅使用截图的测试类别中得分 14.9%,远超第二名的 7.8%。虽然这一成绩低于人类水平,但在人工智能领域已是一大突破。同时,Claude 3.5 Sonnet 开放了API与计算机界面的交互,便于开发人员基于该模型进行二次开发。

AutoGLM

智谱清言基于其GLM基座模型研发了新的具备“Phone Use”功能的 AutoGLM 。用户可以通过文字/语音指令,使其模拟人类动作操作终端。例如,通过语音指令可以完成朋友圈点赞、写评论、电商网购、O2O 平台写五星好评、外卖下单、资料检索筛选、高铁购票等多个任务。其操作流程简单便捷,用户可以说 “帮我点个黄焖鸡米饭外卖”,AutoGLM 就会自动打开外卖软件,搜索黄焖鸡米饭,选择订单页面选项,最后加购下单。

可操控性的意思

OmniParser 框架

微软的 OmniParser 框架是一款解析和识别屏幕上可交互图标的 AI 工具。它结合可交互区域检测模型、图标描述模型和 OCR 模块等,不需要 HTML 标签或视图层次结构等显式基础数据,能够在桌面、移动设备和网页等上跨平台工作。OmniParser 除了识别屏幕上的元素,还能将这些元素转换成结构化的数据。同时,OmniParser框架是一个用于构建可操控终端设备的大模型的框架,GPT-4V 在使用 OmniParser 插件后,图标的正确标记率从 70.5% 提升至 93.8%。OmniParser 的发布为开发者提供了一个强大的工具,助力创建更智能、更高效的用户界面驱动智能体。

可操控终端的大模型与传统RPA技术的比较

Claude 3.5 Sonnet 能够准确计算需要移动鼠标的像素数,从而精准地点击屏幕上的正确位置。智谱的 AutoGLM 基于自进化在线强化学习框架(WEBRL)通过自适应学习策略,在真实环境中动态调整任务难度,实现任务的逐步迭代和优化,提升执行效率和准确度。微软的 OmniParser 通过其中的图标检测模型,以及功能描述模型,用于识别可互动的区域、分析这些区域的功能。大模型通过大量的多模态训练数据,能够理解自然语言和图片的含义,基于屏幕截图更好地理解当前状态,从而执行多种复杂任务。

80厘米左右等于多少尺

而传统 RPA 技术则是一种软件解决方案,通过模拟人类用户的操作行为,自动化执行重复性高、规则性强的任务。传统RPA 机器人可以登录应用程序、移动文件、复制数据、填写表单等,几乎可以完成任何通过用户界面进行的任务。它主要侧重于执行具体的操作流程,对于复杂的语言理解和生成能力相对较弱。

可操控终端的大模型对传统RPA行业的影响

降低学习门槛

传统的RPA技术需要用户具备一定的编程基础,而可操控终端设备的大模型则无需用户编写代码,只需通过自然语言指令即可实现自动化操作,极大地降低了RPA的学习门槛。

提高自动化效率

可操控终端设备的大模型能够理解用户的指令并执行相应的操作,从而实现更高效的自动化流程。例如,用户可以指令模型打开应用程序、浏览网页、输入文本等,无需手动操作,节省了大量时间和精力。

适应复杂场景

大模型为RPA 装上了“大脑”,赋予了RPA更深层次的理解和学习能力。大模型通过深度学习算法,能够理解复杂的语言逻辑和上下文关系,更好地解析用户的意图并执行相应的操作,适应更复杂的场景,从而对各种任务进行智能分析和规划。RPA 在大模型的加持下,不再仅仅是机械地执行重复性任务,而是能够处理更为复杂和抽象的任务。

kindle手写笔

大模型在RPA行业的未来发展趋势

随着大模型技术的迭代,可操控终端设备的大模型在RPA行业展现出巨大的潜力。未来,这类模型将朝着以下几个方向发展:

可操控性什么意思

一是结合其他人工智能技术。可操控终端设备的大模型将会与其他人工智能技术相结合,使系统更好地理解用户的诉求,实现更智能化、自动化的流程,更加精准地完成用户需求、提升用户体验。

二是自适应。可操控终端设备的大模型将会具备更强的自适应能力,能够根据不同的场景和任务进行自我调整,从而适应更复杂的自动化需求。

三是个性化。可操控终端设备的大模型将会根据用户的行为和偏好进行个性化定制,从而提供更加个性化的自动化服务。

总结与建议

可操控终端设备的大模型为传统RPA行业带来了革命性的变化,极大地降低了RPA的学习门槛,提高了自动化效率,并推动了RPA与其他技术的融合。未来,可操控终端设备的大模型将会在RPA行业得到更广泛的应用,并推动RPA行业向智能化、自适应和个性化的方向发展。为了更好地推动可操控终端设备的大模型在RPA行业的应用,因此建议:

一是完善生态系统。 建立完善的生态系统,包括开发工具、API、社区等,方便开发者使用和开发可操控终端设备的大模型。

二是培养企业员工对大模型的掌握。对于需要处理大量重复性工作的行政人员,培养其具备人工智能大模型使用的能力,使未来大量的机械、流程化的操作可以依靠大模型来快速完成,行政人员仅需负责监督大模型处理结果是否正确,节约人工成本。


返回网站首页

本文评论
余承东:华为全面突破操作系统核心技术 这就是鸿蒙速度_华为重磅操作系统来了
快科技6月21日消息,今天下午,华为开发者大会正式召开。大专学校什么时候开始录取在这次大会上,余承东宣布,鸿蒙生态发展迅猛,展现强大生命力,截至目前,鸿蒙生态设备突破9亿台,吸引超...
日期:06-21
google pixel2「万元折叠旗舰!谷歌Pixel 9 Pro Fold发布:12900元起」
快科技8月14日消息,今天凌晨,{tag_keyurl_9}最新一代折叠屏Pixel 9 Pro Fold正式发布,起售价是1799美元(约合人民币12900元)。这是美国市场最薄的大折叠旗舰,谷歌Pixel 9 Pro Fold...
日期:08-14
融云 CEO 董晗入选2023 福布斯中国 · 出海全球化人物 TOP30_融云股东详细
近日,福布斯中国发布“出海全球化 30&30”评选结果,融云 CEO 董晗入选“2023 福布斯中国 · 出海全球化人物 TOP30”。在全球市场新秩序的构建中,中国品牌的影响力和作用日益凸...
日期:01-16
32小时超长续航+提供镭射服务 荣耀Earbuds2 SE幻夜黑配色正式开售
  8月6日,荣耀官方宣布荣耀Earbuds2 SE耳机全新配色幻夜黑正式开售。继荣耀Earbuds2 SE冰岛白之后,幻夜黑配色的上市将给用户提供更多一种选择,感兴趣的用可前往荣耀商城、...
日期:07-17
独立屏显芯片加持!努比亚Z60 Ultra搭载第五代UDC全面屏_努比亚z6参数
快科技12月19日消息,努比亚Z60 Ultra今日正式发布,配备全新第五代UDC全面屏,宣称打造年度旗舰颜值天花板”。据介绍,努比亚Z60 Ultra搭载第五代UDC全面屏,采用京东方屏下Q9+发光材...
日期:12-19
普及潜望式长焦镜头 「真我GT」-Neo6系列影像配置曝光_真我neogt评测
半年前,realme推出了真我GT Neo5系列机型,在外观、屏幕、快充等方面做到了顶级规格,尤其全球首发搭载了量产的240W秒充技术,是目前Type-C接口支持的最高充电功率,截至目前仍无其...
日期:09-10
理想汽车:理想L9在中国汽车健康指数评测中获得四项全五星认证
12 月 20 日讯: 12 月 20 日,中国汽车健康指数评测结果发布,理想L9 是唯一获四项全五星认证的大型SUV。同时,理想L9 也成为中国汽车健康指数新测试规则下总分历史最高分和 2022...
日期:12-20
cozy&co「Coze官网体验入口 coze怎么设置中文如何使用」
Coze是一款先进的AI聊天机器人构建平台,它允许用户快速地创建、调试和优化AI聊天机器人应用程序。这个平台的特点是用户无需编写代码,就能快速地创建并将聊天机器人发布到不同...
日期:12-29
腾讯控股回购股份111万股,耗资约3.51亿港元_腾讯回购股份的原因
查看最新行情   原标题:腾讯控股8月19日回购股份111万股     财联社8月19日电,腾讯控股8月19日回购股份111万股,回购价313.2-319.6港元,耗资约3.51亿...
日期:08-20
王传福的睡梦中,这个越南人,超了比亚迪「王传福为什么卸任」
搞好了是王传福,搞不好是许家印。文 | 华商韬略当地时间8月22日,亚洲人的睡梦中,已经创造了多个财富神话的新能源汽车行业,又添新的神来之笔:在美上市的越南电动汽车生产商VinFas...
日期:08-25
上海谷米音乐_MR.音乐之声入驻米聊 听众借米聊互动
8 月 25 日消息,中央人民广播电台 MR. 音乐之声栏目正式入驻新一代手机社交沟通软件米聊,米聊用户可直接订阅 “MR. 音乐之声 ” ,参与节目互动,与 DJ 进行交流。音乐之声知名...
日期:07-22
中国移动杨杰:以数智化推进新型工业化 支撑高水平建设制造强国
1月19日,全国政协常委,中国移动通信集团有限公司党组书记、董事长杨杰在《人民邮电》报发表署名文章《以数智化推进新型工业化 支撑高水平建设制造强国》,全文如下:以数智化推进...
日期:01-22
微软和首席执行官 Satya Nadella 正在赢得大型科技公司人工智能的认知战
8月22日消息:近期,微软公司及其首席执行官 Satya Nadella 最近发布了一系列公告,似乎在人工智能和基于生成式预训练转换的大型语言模型的融合方面走在了前列。B站回应将赴港二...
日期:08-22
实测来了_,OpenAI发布新模型GPT-4o_opengpg
【】5月14日消息,今日凌晨,OpenAI正式发布了新一代的旗舰模型GPT-4o,可以利用语音、视频和文本信息进行实时推理。据介绍,GPT-4o在英文文本和代码中的表现与GPT-4 Turbo相当,但在...
日期:05-14
50万成本3亿流水、日耗8000万,但这一赛道暴利正收缩?
图片来源@视觉中国文 | DataEye近来,短剧发生一些变化!微信平台针对微短剧类目开发者通过虚拟支付能力产生的交易,提出新规:未来将收取20%的技术服务费——这意味着:短剧赛道的利...
日期:09-28
工联院特稿:工业5G终端的“过去、现在和未来”_5g工业制造
通信世界网消息(CWW)工业是5G应用的“主战场”,我国5G工业应用已从生产外围辅助环节逐步深入至生产核心控制环节。自2019年5G规模商用以来,全国 “5G+工业互联网”呈规模化发展...
日期:07-16
科幻 投稿「科幻杂志被ChatGPT生成投稿“淹没”:无奈关闭投稿渠道」
近日,知名科幻杂志《Clarkesworld》遭遇了一件乍听之下颇有些科幻的事情被AI生成的稿件淹没”根据Clarkesworld杂志编辑Neil Clarke的说法,在2月至今不到一个月的时间里,编辑部...
日期:02-25
被海鸥圈粉 沈义人:感觉要购入台比亚迪了
快科技4月15日消息,比亚迪全新微型电动车海鸥还未发布,就已引起很多人的关注,甚至连知名博主都被圈粉。入殓师的收入ios 16 bug微信会闪退吗就在昨天,其发布微博称:感觉要购入第...
日期:04-17
百度网盘:用户数突破8亿 用户存储数据总量超1000亿GB「百度网盘会员用户数量」
11月25日 消息:今年是百度网盘十周年,百度今日公布数据称,截至目前,百度网盘用户数已突破8亿,用户存储数据总量已超过1000亿GB,年均增长60%。百度网盘通过手表、车机、耳机等共计...
日期:11-26
opengpu.org「突发!OpenAI发布GPT-4o mini,免费为ChatGPT用户提供」
声明:本文来自于微信公众号 AIGC开放社区,作者:AIGC开放社区,授权转载发布。7月19日凌晨,OpenAI在官网发布了最新大模型GPT-4o mini,具备文本、图像、音频、视频的多模态推理能...
日期:07-19