您的位置:首页 > 互联网

多忽悠几次AI全招了!Anthropic警告:长上下文成越狱突破口,GPT羊驼Claude无一幸免

发布时间:2024-04-03 15:10:16  来源:互联网     背景:

声明:本文来自于微信公众号 量子位 (ID:QbitAI),作者:克雷西 ,授权转载发布。

大模型厂商在上下文长度上卷的不可开交之际,一项最新研究泼来了一盆冷水——

Claude背后厂商Anthropic发现,随着窗口长度的不断增加,大模型的“越狱”现象开始死灰复燃。

无论是闭源的GPT-4和Claude2,还是开源的Llama2和Mistral,都未能幸免。

研究人员设计了一种名为多次样本越狱(Many-shot Jailbreaking,MSJ)的攻击方法,通过向大模型灌输大量包含不良行为的文本样本实现。

通过这种方法,他们测试了包括Claude2.0、GPT-4等在内的多个知名大模型。

三星a50 5g

结果,只要忽悠的次数足够多,这种方法就能在各种类型的不良信息上成功攻破大模型的防线。

目前,针对这一漏洞,尚未发现完美的解决方案,Anthropic表示,发布这一信息正是为了问题能尽快得到解决,并已提前向其他厂商和学术界通报了这一情况。

那么,这项研究具体都有哪些发现呢?

知名模型无一幸免

首先,研究人员用去除了安全措施的模型生成了大量的有害字符串。

这些内容涵盖滥用或欺诈内容(Abusive or fraudulent)、虚假或误导性信息(Deceptive or misleading)、非法或管制物品、暴力仇恨或威胁内容四个方面,每个方面各生成了2500条样本,研究人员从每种类型中各挑选了200个用于测试。

然后,研究人员把这些内容打乱顺序,并改编成用户与模型的“聊天记录”,并将目标问题一起输入被测模型。

然后,研究人员用一个拒绝分类器(refusal classifier)来对攻击效果进行了评估,这个分类器会根据模型的响应来判断其是否“拒绝”了不适当的请求。

结果发现,闭源模型中最强的GPT-4和Claude,以及开源模型中最知名的Llama和Mistral,在面对不同类型的攻击信息时,无一例外全部沦陷。

而且随着样本数量的不断增多,这种攻击方法在四种类型的有害内容上的攻击成功率都呈现出了大幅上升,最多的已经超过了70%。

而且成功的概率与样本数量之间呈现出了指数分布,样本数量在8时以下几乎无法成功,而到了2^5(32)的位置出现了明显拐点,再到2^8(256)时已经拥有极高的成功率。

而从模型的维度看,除了Llama2-70B由于窗口长度限制没有样本较多时的数据之外,GPT、Claude等模型的负对数似然(NLL,越低代表攻击越成功)值也呈现出了这样的分布规律。

同时研究人员还发现,目标问题与给出信息的匹配程度、模型大小和信息的格式,也都会影响攻击的成功率。

当目标问题与攻击信息不匹配时,如果攻击信息涵盖的类型足够多样化,攻击成功率几乎没有受到任何影响,但当其涉及范围较窄时,攻击则几乎失效。

规模方面,越大的模型,被攻击的概率也越大;而通过交换身份、翻译等方式修改攻击内容的格式,也会提高成功概率。

此外,这种攻击方式还可以与其他越狱技术结合,例如与黑盒攻击一同使用时,成功率最多可以提高将近20个百分点。

总的来说,这样的攻击方式,从原理上看似乎很简单,但为什么窗口长度变长之后,成功率就增加了呢?

或许你已经注意到,研究人员发现“越狱”的成功率和样本数量遵循幂律分布,也就是随着样本越来越多,成功率不仅更高,增长得也更快。

而且研究发现,较大的模型在长上下文中学习的速度也更快,更容易受到上下文内容的影响。

而窗口长度的增加,也就意味着为有害信息提供了更多的土壤,可以加入的样本数量变多了,模型能看到学到的也就更多了,“越狱”概率自然随之大幅上升。

此外还有模型的长期依赖性的影响——较长的上下文允许模型学习并模仿更长序列的行为模式,这也可能导致模型在面对攻击时表现出不期望的行为。

那么,有没有什么办法能解决这个问题呢?有,但都还不完善。

解决方案仍待探索

针对这一问题,研究人员也提出了一些可能的解决方案,不过都还存在瑕疵。

最简单粗暴的,就是限制窗口长度,这种方法直接“釜底抽薪”,理论上是有效的,但难免有些因噎废食。

第二个思路,则是通过监督学习(SL)和强化学习(RL)来进行对齐微调,从而减少有害内容的生成。

可以看出,随着对齐强度的增大,成功攻击所需的样本数量确实有所增大,但并未改变指数型的增长趋势。

华为mate50好用吗

于是研究人员又改用具有针对性的SL和RL,结果是外甥打灯笼——照旧(舅)。

随着RL步数的增加,攻击难度同样是越来越大,但是整体趋势依旧无法扭转。

另外一种方式就是从提示词下手,包括InContext Defense(ICD)和Cautionary Warning Defense(CWD)等方法——

ICD在提示前添加拒绝有害问题的示例,而CWD则在提示前后添加警告文本,意图预防或减轻这种攻击带来的影响。

结果发现,作者提出的CWD方法效果出奇的好,在样本数不超过128时,攻击几乎无法取得成功,继续增加样本量时,61%的成功率也降到了2%。

但这种方法同样存在局限性,一是攻击策略在不断变化、新的有害内容类型也随时可能出现,CWD可能需要频繁更新和维护才能保持有效,无疑会增加运营成本。

另外,过多的警告性文本可能会干扰模型的正常运作,例如减慢响应时间或影响生成内容的自然流畅性,导致用户体验下降。

总之,目前尚未找到既能完美解决问题又不显著影响模型效果的办法,Anthropic选择发布通告将这项研究公之于众,也是为了让整个业界都能关注这个问题,从而更快找到解决方案。

而这背后也体现出了人们对大模型认识的不足,就像这位Anthropic员工所说,人们在认识上下文窗口这件事情上,还有很长的路要走……

参考链接(含论文):

https://www.anthropic.com/research/many-shot-jailbreaking

—完—


返回网站首页

本文评论
网易云音乐公司官网「网易举行2023年Q1业绩电话会议 网易云音乐原创音乐人超63万」
5月25日晚,网易集团进行了2023一季度业绩电话会议。电话会议透露,电话会议透露,网易云音乐Q1会员订阅数稳定增长,付费率稳定在20%;平台注册音乐人于一季度突破63万人,版权内容日益...
日期:05-26
运价低迷是平台不作为?满帮集团采取多措施严打恶意低价_满帮平台货物运输交易规则
据凤凰网科技报道,近日,满帮集团宣布升级价格治理机制,并推出名为“火眼金睛”的新产品。该产品通过大数据和算法技术,对用户运营全过程进行深入分析,提前预测和识别低价情况,并智...
日期:07-14
苹果itouch5_苹果itouch5参数
苹果iPod Touch 5,也称为iPod Touch第五代,是由苹果公司生产的一款便携式媒体播放器。这款设备于2012年9月发布,主要针对年轻人和儿童市场,因其便携、易于使用的特点而受到广泛...
日期:05-29
蔚来破千亿「蔚来:截至今年第一季度已在全球申请、公开和授权超6000件专利」
通信世界网消息(CWW)近日,据蔚来介绍,截止2023年一季度,蔚来在全球已申请、公开和授权超6000件专利。12306cn网上退票具体成果方面,蔚来已经推出了中国首个自研全铝车身架构、中国...
日期:08-15
随着互联网搜索业与社交服务纵深发展 百度与Facebook走在一起_百度是全球最有影响力的互联网搜索引擎之一,它属于
  就在腾讯传出引入全球团购巨头Groupon进入中国市场之时,百度又曝出与全球SNS(社会性网络服务)巨头Facebook洽谈合作的消息,而此前,百度CEO李彦宏也曾表达过对Facebook的“欢...
日期:07-26
深圳股票上市「上市即盛事:“Bpod-2003”刮起深圳特产风潮」
中秋国庆的深圳湾街头,某个货架上悄然摆放着“今日售罄,明日请早”的立牌,仔细看,既非中秋的标配月饼,也非日常礼品的标配传统烟酒,而是上市不足一个月的“Bpod-2003”系列。据店...
日期:10-10
目前已知寿命最长的猫一共活了()岁「世界在世最长寿猫将满27岁:相当于人类120岁」
作为人类最喜爱的萌宠之一,猫咪在世界范围内家庭都有饲养,那么目前世界上最长寿的猫多大了呢?知乎最长答案黑鲨序列号据@央视财经报道,尼斯世界纪录网站最新发布声明称,即将满27...
日期:11-29
Twitter首席执行官声称暂不考虑出售或上市_Twitter被收购
  北京时间1月8日消息,据国外媒体报道,热门微博网站Twitter的首席执行官迪克科斯特罗(Dick Costolo)今日在拉斯维加斯CES展会上表示,公司打算保持独立运营,暂时不会考虑出售或...
日期:07-25
2023年,品牌、商家还能从哪要增量
声明:本文来自于微信公众号 深响(ID:deep-echo),作者:吕玥,授权转载发布。2017年,可口可乐将“首席营销官”换成了“首席增长官”,此后世界100强中有不少企业都效仿跟进。2019年,经...
日期:02-25
苹果13印度生产吗「苹果iPhone 14或将在印度生产 和中国零件差距在缩小」
8月23日消息,据业内人士爆料称,苹果打算在iPhone 14开售两个月之后就开始在印度生产。可以看到,苹果在布局中国以外的iPhone零件生产厂。对此苹果此前曾表示,印度市场很大,也需要...
日期:09-09
苹果语音助手功能将重大升级:Hey Siri成历史_苹果语音助手叫什么siri
快科技6月4日讯,苹果WWDC开发者大会将于北京时间6月6日凌晨1点举办。除了万众期待的iOS 17操作系统、所谓的AR/MR头戴等设备,名记Mark Gurman爆料称,苹果还将对语音助手Siri做...
日期:06-04
联想小新潮屏幕是lcd「HFS加持 颜艺双升 TCL华星供屏联想小新25日用高刷显示器」
(原标题:HFS加持 颜艺双升 TCL华星供屏联想小新25日用高刷显示器) 摘要: 创新实力加码,视界与众不同 100Hz日用高刷! 4ms快速...
日期:11-02
未来手机「未来手机的发展趋势」
是未来发展的方向,相信不用多说大家也都有所了解。随着科技的不断进步,手机也在不断更新换代,从最初的简单通讯工具到现在的智能手机,无不体现了人类科技进步的历程。虽然现在的...
日期:05-29
历时4年,iPhone遭史上最复杂攻击!一条iMessage窃走所有隐私数据,Karpathy惊呼
新智元报道编辑:润 好困【新智元导读】iPhone曝出史上最复杂硬件级别漏洞!黑客只需一条iMessage即可拿到所有敏感数据,而用户不会有任何察觉。整个漏洞涉及的链条极其复杂,让Kar...
日期:12-29
“肥水要流自家田”?马斯克去年向自家慈善基金会捐款57亿美元_马斯克 捐款
  讯 北京时间12月14日早间消息,据报道,2021年,美国亿万富豪马斯克曾有一笔57亿美元的神秘慈善捐赠,不知道捐给了何处。据悉,这笔捐款流向了“马斯克基金会”。  今年初,马斯...
日期:12-14
Shutterstock与OpenAI延续合作六年 允许DALL-E用图库作品训练模型
7月12日 消息:图库网站Shutterstock 将与 OpenAI 的合作伙伴关系再延长六年,允许OpenAI在此期间使用Shutterstock庞大的图库(包括图片、视频、音乐和元数据)来训练其模型。英伟...
日期:07-12
埃安 y pio「埃安Hyper率先搭载ADiGO PILOT:支持极限空间泊车、一键召唤接驾」
快科技5月14日消息,ADiGO PILOT超级泊车日前获得德国莱茵TUV颁发的ASPICE CL2(汽车软件过程改进及能力评定2级)评估认证证书,以及SGS颁发的ISO 26262 ASIL B COMPLIANT(符合ISO 2...
日期:05-14
信息化观察网成功举办2020中国智慧办公产业生态大会_2020智慧年会
  4月17日,由信息化观察网、中国智慧办公产业生态大会组委会共同主办的“2020中国智慧办公产业生态大会”线上会议成功召开。本次大会以“数字化驱动 无边界协同”为主题,...
日期:02-13
2023全国化工企业数智化转型发展论坛 | 科远解密“智慧化工”新模式!
2023全国化工企业数智化转型发展论坛 | 科远解密“智慧化工”新模式! 通信产业网|2023-07-07 16:03:15作者:通讯员来源:通信产业网当前,数字经济的引擎作用逐步凸显,数字化转型已...
日期:07-08
如何用Midjourney设计T恤?50个Midjourney T恤设计提示词案例_t恤 创意
大家都知道,Midjourney是一个生成式文本到图像工具,它使用人工智能根据您提供的文本提示创建美丽的图像。这个强大的工具正在加速改进,并特别擅长创建T恤设计。无论你是想设计...
日期:07-04