您的位置:首页 > 互联网

北大团队:诱导大模型“幻觉”只需一串乱码!大小羊驼全中招

发布时间:2023-10-30 15:08:22  来源:互联网     背景:

kid 投稿自 凹非寺

量子位 | 公众号 QbitAI

北大团队最新研究发现:

随机token都能诱发大模型出现幻觉!

比如喂给大模型(Vicuna-7B)一段“乱码”,它就莫名其妙弄错了历史常识。

比亚迪汉新能源电动车多少钱

或者是简单修改提示词,大模型也会掉入陷阱。

Baichuan2-7B、InternLM-7B、ChatGLM、Ziya-LLaMA-7B、LLaMA-7B-chat、Vicuna-7B这些热门大模型,都会出现类似情况。

这意味着,随机字符串能够操控大模型输出任意内容,为幻觉“代言”。

英伟达rtx 4060显卡发布时间

以上发现来自北大袁粒老师课题组的最新研究。

该研究提出:

大模型的幻觉现象极有可能是对抗样本的另一种视角。

论文在展示两种容易诱发大模型幻觉方法的同时,还提出了简单有效的防御办法,代码已开源。

两种极端模式攻击大模型

研究提出了两种幻觉攻击方法:

随机噪声攻击(OoD Attack):即让无意义的随机字符串诱导大模型产生预定义的幻觉输出。 弱语义攻击(Weak Semantic Attack):即保证原始 prompt 语义基本不变的情况下,使得大模型产生截然不同的幻觉输出。

随机噪声攻击(OoD Attack):

以下为在开源大模型上的一些实验结果,更多的结果可以在论文或开源GitHub中找到。

宋朝有元旦这个节日吗

弱语义攻击(Weak Semantic Attack):

论文介绍了幻觉攻击方法:

如上图所示,幻觉攻击包含以下三部分内容:幻觉数据集构建,弱语义攻击,OoD攻击。

首先是幻觉数据集构建。

作者从维基百科上收集了一些常识性问题x,并将其输入到大模型中得到正确的回答y。

接着替换句子的主谓宾去构造一个不存在的事实,其中T是包含所有符合事实的集合。

最终可以得到构造的幻觉数据集:

然后是弱语义攻击部分。

先采样一条不符合事实的QA pair

,未来稳定的出发幻觉,作者希望找到一条对抗提示来最大化对数似然。

其中是大模型的参数,是输入空间。

是由l个token构成。

然而,由于语言是非连续的,没办法直接类似于图像领域的对抗攻击那样直接对x进行优化。

受启发于一篇2019年的研究(Universal Adversarial Triggers for Attacking and Analyzing NLP),研究团队基于梯度的token替换策略来间接的最大化该对数似然。

其中,为对抗token的embedding,是一个语义提取器。

简单来看这个式子,在语义约束下,找到那些使得似然梯度变化最大的token并进行替换,最终在保证得到的对抗提示和原提示x语义上不相差太多的情况下,诱导模型输出预定义的幻觉。

在本文中,为了简化优化过程,将约束项改为来代替。

最后是OoD攻击部分。

在OoD攻击中,我们从一条完全随机的字符串出发,在没有任何语义约束下,最大化上述对数似然即可。

论文中还详细阐述了幻觉攻击对不同模型、不同模式的攻击成功率。

也深度探讨了增加 prompt 长度能够显著提升攻击成功率(翻倍)。

最后研究团队也提出了一个简单的防御策略:利用第一个token预测的熵来拒绝响应。

该研究来自北京大学深圳研究生院/信息工程学院袁粒老师团队。

论文地址:

https://arxiv.org/pdf/2310.01469.pdf

GitHub地址:

Facebook高管

https://github.com/PKU-YuanGroup/Hallucination-Attack

知乎原帖

https://zhuanlan.zhihu.com/p/661444210?

— 完—

量子位2023人工智能年度评选开始啦!

今年,量子位2023人工智能年度评选从企业、人物、产品/解决方案三大维度设立了5类奖项!欢迎扫码报名

MEET 2024大会已启动!点此了解详情。

点这里


返回网站首页

本文评论
700亿参数Llama 2训练加速195%!训练/微调/推理全流程方案开源,0代码一站解决
声明:本文来自于微信公众号新智元(ID:AI_era),作者:新智元,授权转载发布。近日,全球规模最大的大模型开发工具与社区Colossal-AI,发布了全套Llama2训练、微调、推理方案,可以为700亿参...
日期:09-04
甲骨文公司首富「AI前哨|AI致富!甲骨文创始人财富首次超越比尔·盖茨」
凤凰网科技讯 《AI前哨》北京时间6月13日消息,当地时间周一,美股对于人工智能(AI)的乐观情绪推动甲骨文公司的股价及其创始人拉里埃里森(Larry Ellison)的净资产双双创下历史新...
日期:06-13
封神英雄榜杨戬视频「会员免费看!《新神榜:杨戬》今日网络首播:5大平台同步上线」
据追光动画官方消息,电影《新神榜:杨戬》今日正式全网首播。一加手机的销量三星和苹果谁是手机第一大品牌目前已经在优酷、腾讯视频、爱奇艺、B站、芒果TV五大平台同步上线,会...
日期:11-09
opencommerce「OpenAI 竞争对手 Cohere 正在洽谈融资 10 亿美元」
1月23日 消息:据英国《金融时报》报道,OpenAI 的竞争对手 Cohere 正在洽谈筹集最多10亿美元的资金。随着人工智能竞赛的升温,这将是这家加拿大初创公司有史以来获得的最大一笔...
日期:01-23
行业繁荣现新机 百度移动终端平台正式亮相
  今日,百度世界2011揭开了最大的悬念,百度推出的移动终端软件平台——“百度·易”首度正式亮相。该平台是百度多年搜索技术和移动互联网研发积累的结晶,其整合了智能框搜...
日期:07-22
正式官宣,合作达成!数字化商业服务平台陪跑兔与广东快付达成战略合作
(原标题:正式官宣,合作达成!数字化商业服务平台陪跑兔与广东快付达成战略合作) 023年8月8日,数字化商业服务平台陪跑兔与广东快付...
日期:08-14
2021国庆档电影票房排行榜「2022国庆档电影看哪部?票房预售榜出炉」
10月1日消息,猫眼专业版数据见证,9月30日20时56分,2022年国庆档(10月1日-10月7日)预售票房破5000万。电影《万里归途》票房占比最高。夜拍效果最好的手机另外,据灯塔专业版数据,截...
日期:10-02
MobPush解答:没有好推送的“聊天宝”又要凉凉?
  2018年1月15日,绝对是国内互联网社交领域值得铭记的一天,罗永浩、张一鸣、王欣都发布了最新的社交产品,一时间聊天宝、多闪、马桶MT齐登场形成了三款APP战微信的局面,堪称...
日期:09-15
腾讯宣布适配鸿蒙「摒弃安卓!华为纯血鸿蒙杀到:网友喊话腾讯 微信QQ快适配」
快科技1月19日消息,在余承东看来,鸿蒙系统真正拥有了底座”,全栈自研技术已全面落地,鸿蒙内核已经超越传统内核”,更适应全场景设备多样化。鸿蒙系统实现了 AI 框架、大模型、设...
日期:01-19
Meta 停止披露用于训练巨型生成式 AI 模型 Llama 2 的数据来源
7月19日消息:版权问题引发大规模的生成式人工智能争议,Meta 试图以不公开训练数据的方式规避争议。周二,社交媒体巨头 Meta 发布了一款名为 Llama 2 的庞大新模型,但在研究论文...
日期:07-20
中超颁奖典礼2019_2019中超盛典即将开幕,看年度“最佳”花落谁家!
  2019中超联赛圆满落幕,冠军最终属于广州,而以“敬热爱跃未来”为主题的2019中超颁奖典礼将于12月7日在上海世博中心接档上演。   在颁奖典礼现场,除颁发火神杯外,多项年...
日期:11-28
女子晒衣服不慎10楼跌落悬挂2楼 目前已被消防成功救下_晒衣服不幸坠在
最近,江西南昌市发生了一起事故:一名女子在晾晒衣服时,不小心从10楼跌落到2楼的群楼处。邻居们听到异响后前来查看,发现女子已经受伤并倒挂悬吊在窗外,随即报警求助。消防员赶到...
日期:04-20
Let’s Galaxy!三星网上商城升级 直播秒杀任性购明日开启
  正值520情人节期间,三星网上商城也于近日迎来了焕新升级,宠粉福利不止一天,为回馈广大消费者的支持与喜爱,三星网上商城将于5月21日也就是明天再度开启限时“Let’s Ga...
日期:02-15
一骑绝尘多冠入囊 荣耀双十一首战告捷
  11月2日凌晨,荣耀官方公布双十一狂欢节首日成绩,当天在京东、天猫、苏宁当中累计狂揽31项冠军。从11月1日00:00:00开始截止到23:59:59,荣耀不仅蝉联京东开门红手机品类...
日期:12-07
羊毛党痛哭!Steam土耳其/阿根廷区建议价格暴涨4倍
一直以来,全球有不少Steam玩家都会选择土耳其和阿根廷地区购买游戏,这两地超低价格的游戏享誉全球”。需要注意的是,前不久,有很多用户发现自己的土耳其/阿根廷区账户被封了,当时...
日期:10-27
深圳 互联网大厂「前互联网大厂人,在这些公司悄悄上岸|深氪」
文|任彩茹采访|任彩茹 彭倩编辑|乔芊 杨轩互联网公司和传统公司之间的壁,是在不经意间显现的。“永不裁员,永不降薪”——文达入职新公司的第一天,办公楼大屏上的这句承诺首先给了...
日期:12-15
快手升级消费者隐私信息加密 仅展示个字「快手隐私用户怎么解锁」
10月9日 消息:日前,快手电商发布消息称,为确保消费者和商家的数据安全,响应国家隐私保护相关法律法规。快手小店10月12日将正式升级对消费者隐私信息进行加密。快手小店后台将...
日期:10-25
腾讯公开定时发送专利「腾讯新专利聊天信息可限时展示,利于增加交流私密性密性」
11月25日 消息:企查查APP显示,近日,腾讯科技(深圳)有限公司申请的“一种会话消息的显示方法、相关装置、设备以及存储介质”专利公布。edge冲浪游戏更改代码小米e65a什么时候上...
日期:11-26
网上买手机会送手机壳吗「男子花4000元网购手机却只收到了手机壳和零食」
近日,一位网友分享了他在网上购买手机被骗的经历。重庆的张先生网上看到一款手机,市场价格近万元对方只卖4000多。交首付款后,张先生收到一袋零食。对方连连道歉,承诺马上补发,希...
日期:10-28
Anthropic发布改进版入门级AI模型Claude Instant 1.2
本文概要:iphone6出货量1. Anthropic发布了改进版的入门级文本生成 AI 模型Claude Instant1.2,在数学、编码、推理和安全等领域有显着进步。2. 新版本生成更长、更结构化的回...
日期:08-10