您的位置:首页 > 互联网

图像伪造照妖镜!北大发布多模态LLM图像篡改检测定位框架FakeShield

发布时间:2024-10-25 16:15:08  来源:互联网     背景:

声明:本文来自于微信公众号 新智元,作者:新智元,授权转载发布。

【新智元导读】北京大学的研究人员开发了一种新型多模态框架FakeShield,能够检测图像伪造、定位篡改区域,并提供基于像素和图像语义错误的合理解释,可以提高图像伪造检测的可解释性和泛化能力。

随着生成式人工智能(AIGC)的迅猛发展,图像编辑与合成技术变得愈加成熟与普及。这一趋势为图像内容创作带来了便捷的同时,也显著增加了篡改检测的难度。

用户能够通过Photoshop、DeepFake、AIGC等工具对图像进行高质量编辑,且往往不留任何痕迹。在此背景下,如何准确检测并定位篡改区域,成为了学术界与工业界的关注重点。

尽管现有的图像篡改检测与定位(IFDL)算法在网络结构和训练策略上取得了一定进展,但仍存在几个主要问题:

1. 大多数方法采用黑箱模型,仅输出真实性概率,缺乏详细的检测解释,导致用户对结果的信任度降低。

2. 现有算法通常针对特定篡改技术,缺乏应对多样化篡改手段的能力,降低了实用性。

为了解决这些问题,如图1所示,北京大学与华南理工大学的研究团队提出了一种全新的任务:可解释的图像伪造检测与定位(e-IFDL),并设计了一个新颖的多模态伪造检测定位框架:FakeShield。

论文地址:https://arxiv.org/abs/2410.02761

项目主页:https://zhipeixu.github.io/projects/FakeShield/

GitHub地址:https://github.com/zhipeixu/FakeShield

结合多模态大语言模型的视觉和语言理解能力,实现在检测图像真实性,生成篡改区域掩膜的同时,提供详细解释,进而增强了检测定位过程的透明性与泛化性。

图1:(a)传统IFDL方法,(b)可解释的IFDL方法

为了解决现有IFDL方法的不足,FakeShield提出了以下主要贡献:

1. 提出了首个多模态大模型框架用于图像篡改检测与定位,不仅实现了检测与定位过程的解耦,还提供了合理的判断依据,解决了现有方法的黑箱问题。

2. 利用GPT-4o丰富现有IFDL数据集,构建了多模态篡改描述数据集(MMTD-Set),通过关注不同篡改特征,生成图像-掩膜-描述三元组,提高了模型的分析能力。

3. 设计了基于领域标签引导的解释性篡改检测模块(DTE-FDM),在单一模型中检测多种篡改类型,缓解了数据域冲突问题。同时,通过多模态篡改定位模块(MFLM),对齐视觉和语言特征,实现精准的篡改区域定位。

基于上述创新,FakeShield不仅提升了篡改检测定位的准确性和解释性,还显著增强了模型的适应性和实用性,为图像篡改检测领域提供了一种全面而高效的解决方案。

MMTD-Set数据集

如图2所示,我们根据篡改方法,将篡改图片分为PhotoShop、DeepFake、AIGC-Editing三个数据域。基于现有的IFDL数据集,我们利用GPT-4o生成对于篡改图像的分析与描述,构建图像-掩膜-描述三元组,以支持模型的多模态训练。另外,针对不同篡改类型,我们设计了特定的描述提示,引导GPT关注不同的像素伪影和语义错误。

图2:MMTD-Set数据集构建过程

在MMTD-Set的构建过程中,prompt设计是关键环节,旨在确保GPT-4o能准确生成与篡改图像相关的高质量描述。在输入编辑后的图像及其二值掩膜时,prompt的设计围绕两个主要方面展开:篡改区域的定位和可见细节的捕捉。

在定位描述中,GPT-4o需要对篡改区域的绝对位置和相对位置进行清晰表达。绝对位置指篡改区域在整个图像中的位置,如图像的左上角或靠近图像下半部分。相对位置则要求描述篡改区域与其他物体之间的关系,如在桌面上方或靠近人群。这种双重描述的设计可以帮助模型更准确地感知篡改区域在图像中的位置,确保输出的掩膜与实际篡改区域一致。

在可见细节的捕捉上,prompt重点关注多种视觉异常,这些异常反映了篡改过程中可能留下的伪影和逻辑错误。

对于Photoshop篡改,prompt重点关注像素级伪影和不自然的边缘,要求模型检查光照一致性、像素模糊和分辨率变化,同时判断是否违反物理规律,如缺失的阴影或透视关系不合理。在DeepFake数据中,prompt强调面部细节和语义逻辑,要求模型注意皮肤纹理的连贯性、表情的自然性以及光影的匹配,留意面部对称性和眼睛反射的异常。

对于AIGC编辑,prompt聚焦于文字生成和视觉逻辑,要求分析文字拼写是否正确、排列是否合理,并判断场景中光影和对象位置的合理性。这种针对不同篡改类型的prompt设计确保了FakeShield在检测与解释上的高效性和准确性。

苹果手机真实图片发朋友圈

FakeShield框架

如图3所示,该框架包括域标签引导的可解释伪造检测模块(Domain Tag-guided Explainable Forgery Detection Module,DTE-FDM)和多模态伪造定位模块(Multi-modal Forgery Localization Module,MFLM)两个关键部分。

DTE-FDM负责图像伪造检测与检测结果分析,利用数据域标签(domain tag)弥合不同伪造类型数据之间的数据域冲突,引导多模态大语言模型生成检测结果及判定依据。MFLM则使用DTE-FDM输出的对于篡改区域的描述作为视觉分割模型的Prompt,引导其精确定位篡改区域。

图3:FakeShield框架图

Domain Tag-guided Explainable Forgery Detection Module(DTE-FDM)

DTE-FDM模块负责图像伪造检测与检测结果的分析,通过生成数据域标签(domain tag)来缓解不同伪造类型数据(如Photoshop编辑、DeepFake、AIGC编辑)之间的数据域冲突。这些标签引导多模态大语言模型(LLM)聚焦于各类型篡改的特征,实现针对性检测与解释。

在检测过程中,输入图像I_ori通过数据域标签生成器G_dt分配特定标签T_tag,表明该图像的伪造类型。接着,图像经过编码器F_enc和线性投影层F_proj转化为特征向量T_img。

这些图像特征与指令文本T_ins一并输入LLM,生成检测结果O_det,包括是否篡改、具体的篡改区域描述以及解释性分析。

具体过程如下:

DTE-FDM不仅判断图像的真实性,还根据不同伪造类型生成详细的判定依据,包括光照一致性、边缘伪影、分辨率差异等。这种设计确保模型能够应对多样化的伪造场景,增强了检测的准确性和解释性,使FakeShield在应对复杂篡改任务时具有更强的泛化能力与实用性。

Multi-modal Forgery Localization Module(MFLM)

MFLM模块负责精准定位图像中的篡改区域,通过多模态特征对齐的方式将文本和视觉信息融合,从而生成准确的篡改掩膜。MFLM的设计旨在解决仅依赖单一模态信息所带来的定位不准确问题,增强对复杂篡改区域的识别能力。

在MFLM中,输入的图像I_ori经过Tamper Comprehension Module (TCM)编码,将图像特征与解释性文本O_det进行对齐。对齐后的嵌入表示通过多层感知机(MLP)投影为特殊的令牌嵌入用于指导分割模型生成篡改区域掩膜,用于指导分割模型生成篡改区域掩膜M_loc。

整个过程如下:

其中,S_enc和S_dec分别为图像的编码器与解码器,Extract(⋅)为提取嵌入的操作,通过上述步骤,MFLM利用文本描述和图像特征的对齐生成准确的二值掩膜。

此外,MFLM使用了LoRA微调技术,对模型进行轻量化优化,提高了处理效率并降低了计算成本。与单一模态分割方法相比,这种多模态交互的设计使得MFLM能够应对更加复杂的篡改场景,如光照不一致、透视错误和对象拼接,从而显著提升篡改区域的定位准确性。

实验结果

我们对FakeShield与多种IFDL方法和多模态大语言模型(MLLM)在检测、解释和定位方面的性能进行了全面对比。为了确保结果的公平性,所有IFDL方法均在与FakeShield相同的数据集上进行了训练和测试。

这一比较覆盖了Photoshop、DeepFake以及AIGC编辑等多种篡改场景,全面评估了各模型在多模态信息融合和复杂篡改检测中的表现。

检测性能对比

我们与MVSS-Net,CAT-Net等其他先进的IFDL方法进行了检测性能的对比,结果如表1所示。实验结果表明,FakeShield在Photoshop、DeepFake和AIGC编辑等数据集上的检测准确率(ACC)和F1分数均显著优于其他方法。通过引入域标签引导策略(domain-tag guidance),FakeShield能够有效处理多种篡改类型,增强跨领域的泛化能力。

表1:FakeShield与主流IFDL方法的定位性能比较

快手经理说车

解释性能对比

我们通过与预训练的多模态大语言模型(M-LLMs)在Photoshop、DeepFake和AIGC编辑数据集上的表现进行对比,评估了FakeShield的解释能力,结果如表2所示。

我们采用余弦语义相似度(CSS)作为衡量指标,FakeShield在各项测试中均取得了最高分数,展现了其生成准确且详细篡改区域描述的能力。这表明,FakeShield能够在复杂的篡改场景中生成与真实情况高度一致的解释性描述,大幅提升了模型在检测过程中的可解释性与透明度。

表2:FakeShield与主流通用MLLM方法的解释性能比较

定位性能对比

我们通过与其他先进的IFDL方法在Photoshop和AIGC编辑等数据集上的表现进行对比,评估了FakeShield在篡改区域定位方面的能力,结果如表3所示。实验结果表明,FakeShield在大多数测试集中均取得了最高的IoU和F1分数。

表3:FakeShield与主流IFDL方法的定位性能比较

另外,图4的主观结果对比也表明,FakeShield能够生成更加清晰且精确的篡改区域分割,准确捕捉边界,而其他方法如PSCC-Net则容易产生模糊且过于宽泛的预测。

图4:FakeShield与主流IFDL方法的定位性能的定性比较

参考资料:

https://arxiv.org/abs/2410.02761


返回网站首页

本文评论
逐新而行,数见未来:英特尔助力青年创客探索可持续发展的未来
通信世界网消息(CWW)10月19日,2023中美青年创客大赛总决赛颁奖仪式暨大赛十周年纪念活动于清华大学举办。中美青年创客大赛是激发创新思维和展示实践能力的舞台,它鼓励青年人关...
日期:10-24
华为畅享60X绝妙体验圈粉多个年龄段用户 「买“充电宝”送超大屏鸿蒙手机」
4月17日,nova 11系列及全场景新品发布会正式召开,千元档位全新的畅享60X也在发布会现场惊艳亮相。整机续航突破7000mAh的华为畅享60X,凭借超大容量双电芯电池辅以长效护眼大屏,...
日期:09-17
携程有租车服务吗「携程租车和腾讯出行服务正式达成合作」
9 月 28 日消息,近日,携程租车和腾讯出行服务正式达成合作,携程租车正式入驻腾讯出行服务,为腾讯出行服务的用户提供一站式在线预订国内租车服务。自 9 月 20 日起,用户通过“微...
日期:09-30
“C罗碰到球了吗”上热搜 网友造新词“上帝之发”!本人微博发声
今日(11月29日)凌晨结束的卡塔尔世界杯小组赛中,葡萄牙队2:0击败乌拉圭,凭借两场小组赛胜利,提前出线。iqoo1500元左右手机推荐4.43英寸此次的两粒进球虽然都记在了B费(布鲁诺费尔...
日期:11-30
辨识度拉满!iQoo 12 Pro真机亮相_iqoopro5g12+128
iQOO即将于11月7日召开新品发布会,推出其最新的骁龙8 Gen3旗舰手机——iQOO 12系列。近日,iQOO产品经理公布了iQoo 12 Pro的真机实拍图,让我们提前一睹新机外观。从照片中可以...
日期:10-28
同档最强 没有对手!王腾:Redmi Note 13 Pro 是最强2亿像素机型
快科技9月11日消息,Redmi市场总经理、Redmi品牌发言人王腾刚刚发文宣布,今天是自己回归Redmi的第一天,也是Note 13系列官宣的第一天。b570主板 amd他表示,Note系列最能代表Redmi...
日期:09-11
宠物博主怎么火「宠物博主商业化难题有了新解法?」
声明:本文来自于微信公众号TopKlout克劳锐,作者:大可,授权转载发布。一直以来,宠物内容在各大平台都收获了不少年轻群体的关注与喜爱,也涌现了许多具有代表性的“宠物达人”与现象...
日期:09-25
iphone11水下「iPhone 15支持水下操作 专利曝光」
从2016年的iPhone 7开始,iPhone就标配防水,但并不保修常生活中的一些水溅、掉水坑、掉洗脚盆的场景都基本无碍,苹果甚至还打造了新的技术,让iPhone可以在水下也能自由操作屏幕。...
日期:02-25
一年拿下4500万用户,西语用户自己的“ChatGPT”_西语cual
声明:本文来自于微信公众号 白鲸出海,作者:白鲸出海,授权转载发布。前些日子出炉的2024上半年 a16z Top50AI App 榜单中,有一个有点陌生的产品 Luzia,排在了第25位,压过了字节的豆...
日期:09-13
微软承诺基于 ChatGPT-4 的 Bing AI 将保持免费「微软 special stock award」
7月24日消息:OpenAI、微软、谷歌和许多初创公司都推出了他们的聊天机器人,其中有些在某些领域比其他机器人表现更好。虽然 OpenAI 的 ChatGPT-4 是付费订阅,但微软的必应(Bing)...
日期:07-24
咖啡 风投「投资人在投咖啡的路上变得小心翼翼」
  记者/吴容  编辑/牙韩翔  2021年,界面新闻关注到投资人都在赶去投咖啡店的路上。但一年之后,他们好像开始变得迷茫和犹豫。  钱不再争先恐后地挤入这个赛道。  根...
日期:10-04
iPhone 15起售接近7000 你还在等着换?「苹果15什么时候出」
傍晚有消息透露,苹果划在即将推出的iPhone 15系列中提高价格。标准版的涨价将约为100美元,国内售价可能会高达6999元,而Pro版的涨价则可能从200美元起步。于苹果公司来说,这是他...
日期:07-15
乐道L60实测90km 70%偏置后面碰撞:乘员舱完整 车门轻松打开_乐道怎么样
快科技5月15日消息,今日晚间,蔚来举办乐道品牌发布会,正式发布了蔚来子品牌乐道,以及乐道首款车型L60。据介绍,乐道定位家庭场景用车,整车以及二排安全是乐道最为关注的场景。爱奇...
日期:05-16
和流浪地球一起上映的「《流浪地球2》今天上映!一加11客串:影片开场就亮相」
由郭帆执导,吴京、李雪健等主演的国产科幻大片《流浪地球2》今日正式上映。国产手机厂商一加手机此次与《流浪地球2》达成合作,凡是电影院已经售出的座位都被贴上了一加11海报...
日期:01-22
Edge浏览器version100版本发布(edge浏览器版本大全)
  微软今日推出了 Edge 浏览器稳定频道的 version 100 (100.0.1185.29) 版本,带来了一些不痛不痒的更新。这也算是一个重大里程碑,但有趣的是它误将这个版本标记为 Edge ve...
日期:07-18
赢家不只有NVIDIA:博通也靠AI赚的盆满钵满_博通bk
快科技6月9日消息,在AI芯片市场的热潮中,不仅NVIDIA凭借其市值的惊人增长成为焦点,博通也悄然成为该领域的另一大赢家。随着人工智能技术的快速发展,定制芯片需求激增,博通凭借其...
日期:06-10
RichGo推出两款诺基亚“贴牌”耳机,涵盖TWS及头戴式_诺基亚耳机是贴牌的吗
国内公司RichGo近日推出了两款以诺基亚品牌命名的耳机产品。其中,TWS耳机名为“诺基亚E3100”,头戴耳机则为“诺基亚E1300”。这两款产品仍然使用了旧版的“Nokia”商标。据悉...
日期:11-29
华为前三季度销售收入达4558亿元「华为预计全年实现销售收入6369亿元」
中关村在线消息:华为轮值董事长徐直军今日发表 2023 年新年致辞,预计华为全年实现销售收入 6369 亿元人民币,经营结果符合预期。ICT 基础设施业务保持稳定增长,终端业务下行趋势...
日期:01-03
虎牙“播”不动了?_虎牙直播不了怎么回事
  撰文 |;曹双涛全球芯片告急  编辑 |;杨博丞  题图 | IC Photo  从辉煌到没落?  2012年成立的虎牙,在资本的助推下,依靠天价签约头部主播,拿下大量游戏直播和赛事版...
日期:10-01
ios钉钉助手怎么使用教程「快讯|钉钉发布苹果Vision Pro原生应用 上线手势标注等功能」
2月4日消息,据钉钉官方微信、微博,钉钉已为苹果 Vision Pro 头显推出原生应用,首批加入苹果 Vision Pro 应用商店。用户在美区应用商店里可下载体验 XR 版本的 DingTalk 应用,在...
日期:02-04