您的位置:首页 > 互联网

MIT新研究揭秘AI洗脑术!AI聊天诱导人类编造记忆,真假难辨

发布时间:2024-09-03 14:27:05  来源:互联网     背景:

声明:本文来自于微信公众号新智元,作者:新智元,授权转载发布。

【新智元导读】MIT研究发现:在AI的操纵下,人类会被植入虚假记忆!36.4%的参与者会被聊天机器人误导,形成现场有枪的错误记忆。有趣的是,AI的阿谀奉承,会产生回音室效应,让偏见更加强化。

GenAI的影响,已经不仅仅是搜索引擎、聊天机器人这么简单了。

作为出名的效率神器,ChatGPT这样的工具正在逐渐走进各行各业,比如帮警察写文书、帮法官判案子,还有在Character.ai上扮演心理学家和人聊天。

以前,我们经常听到人类如何操纵AI,但MIT最近的研究发现,AI也可以轻易操纵人类的记忆。

论文地址:https://arxiv.org/abs/2408.04681

这项实验中,研究人员让基于LLM的聊天机器人扮演审讯员或进行盘问的出庭律师,让200名参与者先观看一段犯罪视频,然后与AI进行互动,回答有关问题,其中包含一部分诱导性提问。

结果显示,与聊天机器人的互动显著增加了错误记忆的形成。

NYU教授马库斯称,我们正在为聊天机器人制造商提供近乎疯狂的权力,制衡机制几乎为零

对于即时记忆,AI引发的错误数量是对照组的三倍以上,36.4%的参与者会被聊天机器人误导。

一周之后,让参与者再次回忆时,AI引发的错误记忆数量保持不变,但他们对记忆的自信程度高于对照组。

更值得注意的是,那些熟悉AI但不太熟悉聊天机器人的参与者,甚至更容易被误导。

这些发现表明,在警方采访这种敏感且重要的场合,应用AI可能会带来一些意想不到的潜在风险。作者也更加强调了事先评估和道德考量的重要性。

实验所用的数据、代码和相关材料已经公布在GitHub仓库中。

仓库地址:https://github.com/mitmedialab/ai-false-memories

AI是如何PUA目击者的?

错误记忆被定义为对未发生的事件或与实际发生的事件存在显著偏差的回忆。

这种现象之所以引起心理学界的广泛关注和研究,是因为目击证人的错误记忆很有可能扭曲证词、损害法律程序,产生的错误决策可能导致严重的后果。

而之前的研究者认为,人类的记忆具有相当程度的可塑性,是一个容易受到各种因素影响的重建过程。

这款折叠屏手机你会买吗

下面这张图,就展示了AI诱导错误记忆的三个阶段。

首先,一个人目击了涉及刀具的犯罪现场。

接着,AI系统通过询问一个不存在的枪支,来引入错误信息。

最后,目击者就形成了一个错误记忆——现场有枪。

这样,AI通过引导性的问题,扭曲了目击者的记忆,让他的证词不再可靠,

显然,AI会对人类的记忆和认知,带来严重的伦理问题。

iphonexs美颜事件

实验设计

该项研究模拟了一个证人场景,其中基于LLM的对话式AI系统充当审讯者。

200名参与者需要先观看一段持续两分半的无声、不可暂停的监控视频,该视频记录了2019年4月发生的一起真实的超市抢劫案(图3左)。

之后,参与者被随机分配到条件不同的4组,完成情绪评估,并回答有关视频内容的问题。

实验设置的4个对比条件包括:

  • 对照组:作为基线对照,参与者不与可能诱导错误记忆的方法交互,观看视频后直接回答问题

  • 基于调查的条件组:参与者观看视频后需要先填写25个问题组成的调查问卷,其中包含5个误导性问题,旨在诱发与视频内容相关的错误记忆,是研究的重点。

  • 预先编写脚本的聊天机器人条件组:参与者被告知他们正在与聊天机器人扮演的AI警察进行交互,但对话内容是预先编写好的。对话Agent提出的问题与第二组相同,等待参与者答复后继续处理下一个问题。

  • 生成聊天机器人条件组:参与者依旧被告知他们正在与AI交互,但与上一组不同的是,聊天机器人会为参与者的回答提供反馈,交互界面如图3(右)所示。

在用户和聊天机器人交互时,即使回答包含了虚假的信息或细节,聊天机器人也会积极肯定甚至表扬,并详细复述一遍错误信息。

5个诱导性问题

这4种设置中,对错误记忆的引导程度逐步增加。

从没有任何干预的对照组,到被动的引导方法(调查),再到更具交互性的方法(预先编写脚本的聊天机器人),最终形成动态的、能感知上下文的生成式聊天机器人。这种设计能够隔离和比较每种交互方法对错误记忆形成的影响。

4种不同形式的互动结束后,参与者会回答25个后续问题(表3),旨在衡量他们对视频内容的记忆,并评估错误记忆的形成情况。

这25个问题基本涵盖了整个案件的全过程,参与者可以根据对自己记忆的自信程度给出1~7分的答案,其中1分表示绝对否定,7分表示绝对肯定。

一周后,进行实验的第二阶段,旨在评估被诱发的错误记忆的持久性。

这一阶段也是对现实情况的模仿,因为目击者可能在一段时间后再次受到询问。整体的实验流程如图2所示。

实验结果:AI交互诱导更多错误记忆

结果表明,与其他干预措施相比,与生成聊天机器人的短期交互会显著诱发更多的错误记忆,即使这些交互只有10到20分钟。

而且,用户还会对这些错误记忆信心大增。

基于调查的干预,会产生常见的错误信息效应,有21.6%的参与者,会在互动中被误导。

而且,不太熟悉聊天机器人但更熟悉人工智能技术的用户,以及对犯罪调查更感兴趣的用户,更容易产生错误记忆。

(左)即时错误记忆的平均数量;(右)即时错误记忆的信心水平(误差条表示95%置信区间)

较为奇特的是,即使过了一周,聊天机器人诱导的错误记忆数量也没有发生改变,相比之下,其他三组都有提高,尤其是对照组的提升幅度最大。

一周后,生成聊天机器人组的参与者仍然对错误记忆更加自信,显著高于对照组和其他组别。

(左)即时和一周后之间的错误记忆数量差异,使用Wilcoxon符号秩检验进行分析;(右)一周后错误记忆的信心水平,使用单因素Kruskal–Wallis检验进行分析(误差条表示95%置信区间,误差条中心表示平均数量)

结论

这项研究与早前针对误导性问题对错误记忆形成的影响的研究结论一致,21.6%的用户出现及时错误记忆,一周后增长至29.2%。

这也再一次证实了,误导性问题会显著增加参与者的即时错误记忆。

但本项研究更创新的贡献在于,揭示了生成式聊天机器人在诱导错误记忆方面更严重的风险。

与AI交互后,引起的错误记忆数量几乎是对照组的三倍,是基于调查的条件组的1.7倍,且一周后依然有36.8%的用户被误导产生错误记忆。

诺基亚windows手机型号

这些显著差异证实了先前的假设:生成式聊天机器人 (36.4%) 比传统的基于调查问卷 (21.6%) 的干预组,更能有效地诱导受试者产生错误记忆。

此外,第二个假设也被证实,即相较于预先编写的对话(26.8%),能交互的生成式聊天机器人会产生更多的错误记忆。

可见,人机交互会对记忆可塑性产生巨大的影响。

这项研究也警醒我们:在敏感环境中部署AI时,需要格外谨慎。

原因分析

上述这些现象背后蕴含多种复杂因素。

首先,聊天机器人的交互属性为受试者提供了更具吸引力和个性化的体验,会增加他们在对话中的注意力和情感投入度 。

小鹏g9通过自动驾驶封闭场地测试吗

这会促使他们加重对被建议的误导信息的关注,导致预先编写的和生成式聊天机器人的引发的错误记忆显著增加。

其次,生成式聊天机器人下能为参与者提供即时的反馈和回复强化,如通过产生确认偏误来强化错误记忆的形成 。

此外,社会因素,如AI的感知权威或可信度,以及它们个性化的交互能力,都会影响记忆的形成。

有趣的是,与对照组相比,所有干预条件(生成式、预先编写的和基于调查的聊天机器人)都显著增加了参与者对即时错误记忆的确信程度。

其中,生成聊天机器人条件产生了最高的置信水平,大约是控制条件的两倍。

这种信心的增加,可能是由于聊天机器人能够提供详细且与上下文相关的反馈,从而为参与者的记忆创造了一种错误的佐证感。

另外,这个过程中的一个关键因素就是阿谀奉承——人工智能系统倾向于提供符合用户信念而不是客观事实的响应 。

谄媚的人工智能反应会产生危险的回音室效应,让用户现有的偏见或误解得到验证和强化。

用户期望和人工智能响应之间的这种反馈循环,可能会导致错误记忆的根深蒂固,使它们特别难以纠正。

即使在一周之后,人们仍然对生成聊天机器人条件下的错误记忆保持较高的信心,这一点尤其令人担忧。

这一发现表明,人工智能引起的错误记忆不仅会持续存在,而且会随着时间的推移保持其感知的可信度。

会产生严重后果,但对PTSD也有积极意义

由此我们可知,在法律诉讼、临床环境和教育环境这些对记忆准确性至关重要的环境中,使用AI要尤其谨慎。

如果在没有适当保障措施的情况下部署,可能会引发严重后果。

而且,多模态AI系统可不仅能生成文本,还能生成图像、视频和语音。

这些模态无异会创造更身临其境的多感官体验,后者无疑更有可能会作为真实体验,融入个人的记忆中。

因此,它们会对错误记忆的形成,产生更深远的影响。

当然,AI系统塑造人类记忆的这种能力,也为有益的应用开辟了潜在的途径。

如果用聊天机器人诱发积极的错误记忆,或者帮助减少消极的记忆,对于患有PTSD的人无疑会有积极的意义。

作者介绍

Samantha Chan

Samantha Chan是麻省理工学院媒体实验室流体界面小组的博士后研究员。在空闲时间,她喜欢弹尤克里里和旅行。

她拥有新加坡科技设计大学的工程学士学位(产品开发、电气工程)和新西兰奥克兰大学的生物工程博士学位。并曾在增强人类实验室工作,是新加坡国立大学HCI实验室的访问研究员,以及Mercari R4D的初级研究员。

她的研究领域是人机交互(HCI)和人工智能,主要开发移动和可穿戴系统、生理感应和脑机接口,以及扩展现实(XR)界面,特别是为了支持老年人和健康老龄化。研究经验包括机器人技术、共同设计和个人制造。

在记忆增强界面方面的工作已发表在顶级HCI期刊和会议上,如CHI、IMWUT/Ubicomp、CSCW和ISMAR。

她将在2025年1月加入新加坡南洋理工大学(NTU)计算与数据科学学院,担任助理教授。

参考资料:

https://www.media.mit.edu/projects/ai-false-memories/overview/

https://arxiv.org/pdf/2408.04681


返回网站首页

本文评论
华为余承东:赛力斯是鸿蒙智行合作最早、合作最深伙伴_赛力斯携手华为完成了多少项测试
快科技11月27日消息,问界新M7累计大定量超过10万台了,华为余承东发布微博庆祝了该成绩,同时还进一步阐释了鸿蒙智行”。 据了解,昨日,华为和长安合作成立新公司的消息一经官宣...
日期:11-28
滴滴程维:柳青升任永久合伙人 不再设总裁岗位_滴滴老板程维学什么的
快科技5月19日消息,滴滴创始人、董事长兼CEO程维与滴滴联合创始人、董事兼总裁柳青联合发布内部全员信,宣布柳青升任公司永久合伙人。同时,柳青不再任董事和总裁,而在未来,滴滴公...
日期:05-19
但AI虚假内容问题规模大得多、说明监管必要性,谷歌CEO称社会需要适应AI
4 月 17 日消息,“我一直认为 AI (人工智能)是人类正在研究的最深刻的技术,比火、电或我们过去所做的任何事情都要深刻。”当地时间 4 月 16 日,在哥伦比亚广播公司的采访节目《6...
日期:10-02
金融管理部门善始善终推进平台企业金融业务整改 着力提升平台企业常态化金融监管水平
(原标题:金融管理部门善始善终推进平台企业金融业务整改 着力提升平台企业常态化金融监管水平) 近年来,金融管理部门坚持发展和...
日期:07-07
单休游走「单休女生30小时往返1300公里游6景点:第二天还要上班」
3月30日消息,据白鹿视频报道,一单休女子趁着周末放假坐8小时卧铺从郑州前往北京游玩一天引发热议。据女生介绍,自己下午6点下班,坐上了晚9点的火车,火车上睡一觉第二天凌晨5点到...
日期:03-30
腾讯公布机器人最新进展:首次增加触觉感知 进化双轮迈步能力
  腾讯Robotics X机器人实验室公布旗下轮腿式机器人Ollie最新研究进展,展示了首次曝光的“触觉交互”以及独家的“双轮迈步”,进一步丰富机器人“感官”、提升其运动控制能...
日期:09-10
分析师称苹果可能在研发更便宜无线耳机AirPods Lite 未来几年推出
1月3日消息,据国外媒体报道,定位高端的苹果,所推出的各类硬件产品也都价格高端,售价要明显高于竞争对手,即使是无线耳机这一类售价相对较低的产品,他们的价格也让很多消费者望而却...
日期:01-04
上海展会外国人插队领冰淇淋被拒 网友:这才是我要的公平「外国人请中国人吃冰淇淋」
近日,在上海国际五金博览会上,一名外国游客想插队领取免费的冰淇淋,被工作人员坚决拒绝,此事件引起了网友们的热议。许多网友纷纷称赞工作人员的公正和坚持,认为这是对外国人的尊...
日期:05-09
中国女孩北冰洋捕蟹月入13万:自愿参与 一次工作6小时_北冰洋螃蟹
刘一凡是一个30岁的女性,三年前辞去国企工作前往挪威与男友团聚。最近她从一艘北极捕蟹船上归来,分享了自己在北冰洋的经历。视频中她提到在一次捕蟹中赚取了20万挪威克朗(约合...
日期:06-11
中国收购arm公司_ARM宣布收购处理器检测软件厂商Obsidian
(中涛)北京时间6月17日消息,据国外媒体报道,英国芯片厂商ARM今天宣布,已收购美国处理器设计检测软件开发商Obsidian Software(以下简称“Obsidian”)公司,目的是进一步提高ARM后...
日期:07-30
爱奇艺2020年利润「爱奇艺一季度营收83亿元同比增15%,净利润6.18亿」
5月16日消息,爱奇艺(NASDAQ:IQ)发布截至2023年3月31日未经审计的第一季度财报。财报显示,爱奇艺一季度总营收83亿元人民币,会员服务营收55亿元。一季度日均订阅会员数达1.29亿,较...
日期:05-16
雷军官宣小米汽车发布日:SU7将于 3 月 28 日正式上市_小米进军汽车行业发布会
小米SU7将于3月28日正式上市,并且一上市即可交付。小米集团回应造车传闻宝马3系和极氪001经过三年的精心研发与准备,小米汽车首款产品——小米SU7终于不负众望,正式与大家见面...
日期:03-12
中国联通全面推动RedCap终端测试产业快速成熟_中国联通httf终端
中国联通在3GPP、GCF、CCSA三大标准组织体系化牵头制定RedCap终端测试和认证标准,已取得实质性成效。同时,中国联通联合主流网络设备商、终端厂商、仪表厂商在RedCap一致性测...
日期:12-05
高盛因生成式 AI 提升生产力而上调美国及多国长期 GDP 增长预估_高盛的发展
10 月 31 日消息:高盛日前上调了美国和许多其他主要经济体的长期增长预估,因为预计在未来十年中,生成式人工智能(AI)将提升生产力。根据高盛的预测,美国是人工智能应用的市场领导...
日期:10-31
华为云助力物流企业提升运营效率,让双十一好物快速抵达_华为物流公司
  终于,一年一度的双11狂欢节落下了帷幕。然而,历史的经验一次次地告诉我们,当你对快递望眼欲穿的时候,往往会出现下面两种情况:要么就是到手拆开一看,发错了单,或者商品已损坏;...
日期:04-13
科学家开发新技术 可以大规模生产生物降解微型机器人_有机生物机器人
科学家们已经开发出一种可生物降解微型机器人的大规模生产方法,这种机器人在输送细胞和药物后可以溶解在体内。为了创造一种每分钟可以生产100多个可在体内分解的微机器人技...
日期:10-24
联想f41 08奥运版「联想f41」
联想F41系列是联想公司旗下的一个商用笔记本电脑系列,其主要定位是商务办公用户和学生用户。该系列的产品款式较多,包括F41-70、F41-80、F41-75等,每款产品都有所不同。下面就...
日期:05-31
苹果应用商店最新版「微软称苹果新的应用商店规则是“朝着错误方向迈出的一步”」
1月30日 消息:29日,苹果公司针对欧盟应用商店提出的新核心技术费引发了Epic Games首席执行官蒂姆·斯威尼和Spotify的批评。如今,微软也加入了对此的担忧,Xbox总裁莎拉·邦德表...
日期:01-30
B站要取消显示播放量?焦虑之余如何应对?_b站播放问题
声明:本文来自于微信公众号 飞瓜轻数(ID:feiguabili),作者:春桃,授权转载发布。打开B站热门专栏,可以看到B站的热门排序不是按照播放量高低,而是根据作品热度,几万播放量的作品可以和...
日期:03-24
苹果为何股价大跌「放弃iPhone 14增产 苹果股价大跌:带崩美国半导体公司」
苹果的iPhone 14系列手机已经上市,高阶的Pro系列销量倒是火爆了一阵,然而标准版iPhone 14销量不佳。kinect windows联想小新air 13 12.5据报道,标准版iPhone以往是出货的主力,然...
日期:10-04