您的位置:首页 > 互联网

首个获得驾照的AI!Agent担任私人助理样样精通,还能帮助考试作弊

发布时间:2023-11-29 23:24:22  来源:互联网     背景:


当贝x3投影仪致命缺点

新智元报道

编辑:alan

【新智元导读】最近,Jim Fan转发了斯坦福博士生开发的一款AI Agent,它在美国加州的驾照考试现场独立通过了考试。AI一小步,人类一大步,我们一起来看一下吧。

关于当前基于Transformer的LLM能走多远的问题,人们仍在争论不休。

与此同时,另一边,能够帮助人们处理各项工作的AI Agent已经悄然走入人们的生活。

以前的ChatGPT等大模型,热衷于在人类考试中刷分以凸显自己的实力,而不久前,又有一位AI Agent通过了美国加州的驾照考试。

——但与之前不同的是,这次的AI Agent是在监考员的眼皮底下帮助人类成功作弊,通过考试!


对此,AI Agent的作者表示,很高兴与大家分享一项不朽的成就,我们的 Web AI 代理刚刚通过在线加州驾驶考试创造了历史,成为第一个在加州获得驾驶执照的虚拟 AI!

这标志着一个开创性的时刻:人工智能首次完全自主地完成现实世界的人类知识任务,这是人工智能的一小步,也是人类的一大步。

虽然多少有点夸张,但不得不说,还是挺神奇的。


从图中我们可以看到,AI Agent完全靠自己审题、作答、并点击下一道题。

对于这样成功的表现,Jim Fan也是表达了祝贺:


从去年开始,一些加州居民可以在网上参加驾驶考试的笔试部分,免去了他们需要花时间去考试机构所在地的麻烦。


为了防止作弊,官方采取了一些相应的措施,要求考生必须允许机动车辆管理局(DMV)访问电脑的摄像头,以记录考试过程;并在考试期间共享屏幕。

——这样参加考试的人就无法在考试中途打小抄了。

然而,还是有人在监考员的眼皮底下作弊成功,而助手正是我们前面介绍的AI Agent(到底谁是助手也不好说)。


这个AI Agent来自一家名为 MultiOn 的初创公司,由 Div Garg 创立。

Div Garg是斯坦福大学的博士辍学生,他最初创办 MultiOn 是为了实现日常任务的自动化,比如从亚马逊订购厕纸或安排日历约会。

MultiOn 的产品可以控制用户的浏览器,完成诸如在 Uber Eats 上订餐或进行 Resy 预订等任务。

——需要注意的是,这并不是我们平时会见到的浏览器脚本,Agent背后依托的是AI的能力。


这项服务目前是免费的,AI Agent位于浏览器的右下角,你可以在这里输入命令,这与微软的必应 ChatGPT 助手完全不同。

这个AI Agent可以作为用户的私人助理,它提供的大部分功能都很有用,即使不能完全改变生活。

上个月在旧金山的一家咖啡馆演示 MultiOn 时,Garg 用它向 Facebook 上的熟人群发了生日快乐信息。

随后又利用 MultiOn 安排了与记者的下一次会面,目的正是向大众演示如何利用AI Agent通过车管局的正式驾驶考试。

虽然看上去只不过是AI答对了一些问题,但实际上要达成这个目的并不简单。

一般来说,AI需要一段长长的提示,才能选择正确答案,然后点击进入下一个问题,而且AI不能有多余的动作,以免被发现作弊。

平心而论,目前的这个AI Agent仍然需要人的手指随时待命,以防出错。根据设置,MultiOn 在出错时会停止运行,这时就需要人类测试者自己按下继续按钮。

另外,它也无法解析图像,所以如果遇到了要求识别交通标志的问题,都会回答错误。


当前的AI虽然拥有完善的知识,但通常需要严格的提示才能进行下一步。所以,对于这场考试来说,答对有关正确驾驶规范的难题是一方面,点击按钮进入下一个问题更体现出它的能力。

Garg认为这依靠了很多运气。这是 MultiOn 第一次参加正式的州立考,最终,MultiOn 在 46 道题中只错了五六道,正式达到了通过标准。

当然,根据加州法律,以这种方式使用该技术可能构成伪证罪。因为在考试之前会要求考生声明自己将亲自作答。

加利福尼亚州车管局曾在一份声明中写道:作为一项防欺诈措施,在线考试参与者必须验证自己的身份,并同意在整个考试过程中接受监控。随着技术的发展,DMV 将继续更新保障措施。

人工智能助手的未来

MultiOn在通过DMV考试之前,就已经引起了OpenAI及其首席执行官Sam Altman的注意,Garg 表示正在与OpenAI密切合作。

但就目前而言,MultiOn对部署采取了谨慎的态度,这次成功的测试与其说是一项关键功能,不如说是一个概念验证。

Garg希望确保对自己产品的控制,从而避免出现恶意使用的情况。他希望人们不要在各种考试中作弊,因此他计划对普通用户禁用任何类似的灰色地带功能。

与主要存在于 ChatGPT 沙盒中的 OpenAI GPT 助手不同,MultiOn 助手是作为谷歌 Chrome 浏览器的扩展程序自主运行的。用户必须授予它有效控制电脑的权限。

我们的技术直接在用户的电脑上运行,它实际上是在控制,在做事,很多事情都可能出错。

目前,大约有 3 万人注册试用了该应用的测试版。Garg预计 MultiOn 还会有更多新功能,比如加强版移动语音助手和内置 MultiOn 技术的浏览器。

——不过,利用它在 SAT 或 ACT 等考试中作弊的可能性也不大,因为这两个考试机构都要求学生到考试中心参加考试。

MultiOn的官网上还向我们展示了产品的一些基本而有趣的用途,比如查询天气:


更实用一点的是下面这个例子,用户可以直接告诉Agent帮忙订一个汉堡,后面的所有事情都完全不用操心了。


包括选择店铺、选择商品、下订单和支付等等,Agent一条龙服务,统统帮你搞定——确实称得上是私人助理了。

除了这个演示,官网还列出了其他的一些功能:





比如线上购物、文章摘要、查找并播放音乐和视频、在线互动等。

有网友使用MultiOn在亚马逊买了一本书,并表示太疯狂了。



而另一位网友使用MultiOn自动搜索并播放想要的视频,还自动进行了评论:


有了这次成功的驾照考试经历,Garg也是野心勃勃地表示,明年我们的AI Agent就可以驾驶你的特斯拉了!


不知道大家对于未来的AI Agent又抱有怎样的幻想呢?

参考资料:

https://twitter.com/DivGarg9/status/1728854189873549809

https://sfstandard.com/2023/11/14/multion-ai-assistant-california-driving-test/


返回网站首页

本文评论
ISC2022周鸿祎:360是在用做双11的数据处理能力来解决网络攻击
  讯 7月30日上午消息,在第十届互联网安全大会上,360公司创始人周鸿祎在介绍360的安全能力时表示,360是用互联网公司做双11的数据处理能力来解决网络攻击,这是传统网络安全公...
日期:07-31
中兴通讯联合北京移动业界首发视频通话vMOS及卡顿感知评估体系
通信世界网消息(CWW)近日,中兴通讯联合北京移动提出业界首个面向用户感知的视频通话vMOS及卡顿感知评估体系,并顺利完成现网验证。此次研究成果,基于中兴通讯VMAX大数据平台的 D...
日期:09-28
苹果用户不必担心充电接口问题!iPhone 15系列可以使用安卓C口数据线_苹果的充电插头可以用安卓的线么
据9月20日消息,iPhone 15已经正式亮相,其中最大的升级点之一是标配了USB-C接口。虽然目前还没有关于USB-C接口加密的具体信息,但有国外博主第一时间进行了实测,结果显示iPhone 1...
日期:09-20
观看狼群在野外觅食蓝莓的罕见视频_采野生蓝莓视频
据CNET报道,狼以捕食鹿、麋鹿和驼鹿等动物而闻名。但它们也有一些其他觅食技能:会愉快地进食水果。明尼苏达大学的Voyageurs Wolf项目跟踪灰狼在明尼苏达州北部Voyageurs国家...
日期:10-04
618开门红,LIFAair畅销空净5折火热限时抢购
  6.15-6.18日,LIFAair迎来京东618家电超级品牌日开门红,经典热销LA310智能空气净化器,5折火热开售,还有多款备受消费者信赖和权威测评机构好评的爆款净化器,业已加入618钜惠...
日期:07-14
斩获多项权威大奖与认证 天翼云引领云边协同发展「天翼云云平台总体架构」
通信世界网消息(CWW)近期,在由中国信息通信研究院、中国通信标准化协会主办的“2023云边协同大会”上,天翼云“一种基于分布式云底座的智能计算平台”“基于分布式云存储系统统...
日期:07-05
中国移动携手产业率先完成最全厂商5G RedCap商用规模试验「中国移动5g+aicde」
通信世界网消息(CWW)近日,中国移动携手全部五家主设备厂商率先完成5G RedCap面向商用的现网规模试验,表明中国移动5G RedCap网络已具备规模商用能力,是5G RedCap发展的重要里程碑...
日期:06-27
FEELM Max再获红点奖 FEELM以合规、环保组合出击全球一次性市场
近日FEELM官方微信公众号最 新公布了 4 款产品获得 2023 年红点奖。从公布的信息看到,合规、超薄、健康、环保是此次获奖产品主要亮点。还同时曝光了两款最 新的FEELM Max一...
日期:04-12
阿里张勇股东信披露:今年预计有超5800名应届生加入阿里_张勇是阿里巴巴的股东吗
7月26日消息,阿里巴巴集团董事会主席兼首席执行官张勇发布的致股东信,其中首次披露:尽管今年由于新冠肺炎疫情等带来巨大不确定性,预计仍有超过5800名应届大学毕业生加入阿里。...
日期:08-26
中国联通周晶:RedCap将真正激活5G市场_中国联通开通5g业务
通信世界网消息(CWW)随着“物超人”从理想照进现实,我国已经建成了世界上规模最大的5G网络。但5G模组产业发展并不理想,年出货量只有百万级别,这主要是由于5G与移动物联网的结合...
日期:08-10
法拉第未来:被纳斯达克告知不符合继续上市要求 将尽快召开年度股东大会
1月11日消息:法拉第未来公告,公司于1月4日收到纳斯达克交易所通知,告知公司不符合继续上市要求,因公司未及时举行年度股东大会。美国新能源汽车发展历程当贝D3X开箱法拉第未来...
日期:01-11
国漫的现状「2亿人都在看,国漫主流化靠什么?」
声明:本文来自于微信公众号 娱乐硬糖(ID:yuleyingtang),作者:谢明宏,授权转载发布。临近岁末,又到了各平台用大数据总结我们过去一年看了什么、说了什么的日子。而若说哪个泛娱品...
日期:12-23
三证齐全!华为Mate 50系列或将于9月6日发布(华为mate 30系列发布会)
数码博主@数码闲聊站在微博透露,华为新机三证已齐,配置上,除了常规的人脸识别,还有一系列全新功能。(图来源于网络)据相关消息透露,华为Mate 50系列将采用类钻排列新基材屏幕,支持LT...
日期:08-21
真我GT Neo5 SE快闪空降武汉,真粉热情购机提前解锁越级体验「realme 真我gt neo 5g怎么样」
2023 年 4 月 9 日—中国 · 武汉—科技潮牌真我realme在武汉开启“真我GT Neo5 SE新品快闪活动”。活动期间,极具趣味性的互动环节和职业电竞选手的惊喜现身让现场氛围空前...
日期:04-10
伊利金领冠珍护2段800克价格「伊利金领冠珍护升级A2型奶源,定义“好奶粉新标准”」
近日,伊利金领冠旗下明星大单品珍护焕新上市,以鲜活A2 型生牛乳[1]全面进阶新一代超级[2]配方。全新金领冠珍护以超级配方、超级[3]奶源、超级[4]原料、超级[5]工艺、超级[6]...
日期:07-19
声网实时高清·超级画质 | 视频要高清 美颜也要养眼
美颜是当今短视频、视频社交、直播等日常生活中经常使用到的一项技术,好的美颜可以给视频中自己的外貌、肤色、妆容等加分,进而带来更好的视觉体验。而然,美颜并不是万 能的,我...
日期:08-22
海信VIDAA65V3F-PRO电视怎么安装第三方软件看电视直播
  打开海信VIDAA65V3F-PRO电视硬件,在画质,音质和内存等各方面做了很大的提升,也因此收获了一大批忠实用户,但是很多用户还是不知道海信电视怎么安装u盘里的软件,其实这些问题...
日期:07-17
涉嫌收集个人定位信息 谷歌韩国办公室遭搜查(谷歌验证个人信息韩国)
  中新网5月3日电 据韩国《朝鲜日报》中文网报道,韩国警方3日上午对谷歌首尔办公室展开了突袭检查。   首尔警察厅网络犯罪调查队表示,当天上午10时许,向位于首尔江南区驿...
日期:07-27
雷军庆幸至今:当初做了一个决定 改变了我的一生「雷军选择自己人生最后一次创业」
  【手机中国新闻】有这样一句话:当你老了,回顾一生,就会发觉:什么时候出国读书,什么时候决定做第一份职业、何时选定了对象而恋爱、什么时候结婚,其实都是命运的巨变。只是当时...
日期:08-11
AMD高管称英特尔IFS注定要失败,认为剥离制造业务更有利于产品研发
2021年英特尔CEO帕特-基尔辛格(Pat Gelsinger)在主题为“英特尔发力:以工程技术创未来”的全球直播活动中,分享了“IDM 2.0”愿景,阐述了如何通过制造、设计和交付产品,为利益相关...
日期:10-07