您的位置:首页 > 互联网

拖拽P图技术又升级了:StableDrag更稳、更准,南大、腾讯联合打造_拖拽图片到ps

发布时间:2024-03-18 10:33:02  来源:互联网     背景:

声明:本文来自于微信公众号 机器之心(ID:almosthuman2014),作者:机器之心,授权转载发布。

去年5月,动动鼠标就能让图片变活得研究 DragGAN 吸引了 AI 圈的关注。通过拖拽,我们可以改变并合成自己想要的图像,比如下图中让一头狮子转头并张嘴。

实现这一效果的研究出自华人一作领衔的Drag Your GAN论文,于上个月放出并已被 SIGGRAPH2023会议接收。相关的项目在 GitHub 上已经积累了34.5k 的 Star 量。

印度塔塔小型电动汽车

项目地址:https://github.com/XingangPan/DragGAN

拖拽的图片

之后,新加坡国立大学和字节跳动推出了类似的研究 ——DragDiffusion。他们利用大规模预训练扩散模型,极大提升了基于点的交互式编辑在现实世界场景中的适用性。效果如下动图所示:

尽管取得了很大的成功,但类似的拖拽方案存在两个主要缺陷,即点跟踪不准确和动作监督不完整,从而可能导致无法达到满意的拖拽效果。

为了克服这些缺陷,南京大学、腾讯的几位研究者提出了一种判别式点跟踪方法并针对动作监督采用了基于置信的潜在增强策略,构建了一个更加稳定和精确的拖拽编辑框架 ——StableDrag。

其中判别式点跟踪方法能够精确地定位更新的操纵点,提高长程操纵稳定性;基于置信的潜在增强策略能够在所有操纵步骤中,保证优化的潜在变量尽可能地高质量。

  • 论文标题:StableDrag: Stable Dragging for Point-based Image Editing

  • 论文地址:https://arxiv.org/pdf/2403.04437.pdf

  • 项目地址:https://stabledrag.github.io/

得益于这些独特的设计,研究者实例化了两种类型的图像编辑模型:StableDrag-GAN 和 StableDrag-Diff。这两个模型在 DragBench 上进行了广泛的定性和定量评估,结果都显示出更加稳定的拖拽效果。

如下为 StableDrag-GAN 的更多拖拽示例。

StableDrag-Diff 的拖拽示例如下所示。

方法介绍

如图1所示,由于不精确的点跟踪和不完整的动作监督,DragGAN 和 DragDiffusion 对图像的编辑质量不高。因此,在这项工作中,本文将注意力集中在当前的拖拽技术上,以实现更稳定和更精确的图像操作。

东山再起是谁的主人公

拖拽 pipeline 如图2所示,包括判别点跟踪模块( Discriminative PT )和置信动作监督模块( Confident MS )。

判别点跟踪

本文提出了一种更具辨别力但简单的点跟踪算法。在本文的设计中,点跟踪模型构成卷积层的权重,并提供点分类得分作为输出。具体来说,本文建议学习一个函数

,其中 g 为卷积函数,

英伟达中国竞争对手

为当前操纵点( handle point ) p_i 周围的局部 patch,z_i 为学习到的跟踪模型。详细流程如上图2所示。

在此过程中,跟踪点 p_i 的更新方式为:

跟踪模型 z_i 是一个大小为1× C ×1×1的卷积滤波器,其学习过程概述如图3所示。本文使用 f_i 初始化 z_i 并在以下损失的监督下更新权重:

置信动作监督

本文提出了一种基于置信度的潜在增强策略,如图2所示。首先,本文引入跟踪得分最大值即 s_i,来表示当前的监督置信度,以及置信度分数在 step-1产生增强策略的阈值。通常,当模型足够自信地识别当前状态时,本文会采用论文中等式(1)的原始动作监督。如果当前的置信度得分低于预定义的阈值,则采用初始模板进行监督。具体强化监督定义为:

实验结果

研究者基于 PyTorch 实现了 StableDrag-GAN 和 StableDrag-Diff,实验中使用了一块英伟达 V100GPU。

下图5展示了 DragGAN 与 StableDrag-GAN、DragDiffusion 与 StableDrag-Diff、以及 FreeDrag-Diff 与 StableDrag-Diff 三组模型之间的定性比较。

左右边框为无边框

可以看到,本文的 StableDrag 方法可以更精准地将操纵点移动到目标点,例如山峰、狮子下巴、小鹿额头和灯泡。同时,StableDrag 可以生成更高质量和更高保真度的编辑结果,比如保持手提包、眼镜、马和兵马俑的外观。

研究者在 DragBench 基准上对 StableDrag 方法进行了定量评估,该基准包含205个具有预定义拖拽点和掩码(mask)的样本。

如下表1所示,在3种不同的优化步骤设置下,StableDrag-Diff 始终能够优化 DragDiffusion。

这进一步表明:通过置信动作监督和判别式点跟踪,StableDrag 可以在编辑准确性和内容一致性方面实现有潜力的结果。

除了定性和定量评估之外,为了验证本文方法的有效性并展开深入分析,研究者通过基于 GAN 和扩散模型的定性可视化以及基于扩散模型的 DragBench 定量评估,进行了详细的消融实验。

首先是置信动作监督。研究者首先进行了基于 StableDrag-GAN 的马编辑实验,如下图6所示,随着置信度得分逐渐降低,没有置信度动作监督模块的 StableDrag 编辑的图像质量较低。

其次是判别点跟踪。图7和表2评估了 StableDrag 和没有判别跟踪模型的 StableDrag。我们可以看到,没有判别跟踪模型的 StableDrag 可能会受到背景干扰点的误导,导致结果不准确。

最后是跟踪模块的实用性。该研究提出的点跟踪器在公式和实现上都很简洁。如表3所示训练跟踪器(大约仅1秒)花费的时间远少于拖拽过程。

更多技术细节和实验结果请参阅原论文。


返回网站首页

本文评论
小米12T Pro真机曝光:2亿主摄 10月4日发布_小米10t Pro摄像头
今天傍晚传出了小米12T系列手机的消息,其中小米12T Pro真机照已经公开,目前来说小米12T Pro工业设计与国行版Redmi K50至尊版基本差不太多,都是搭载的骁龙8+旗舰处理器,标配1.5K...
日期:10-04
法国禁止广播说"Facebook"和"Twitter"
法国行政机构颁布了新的条令,禁止美国广受欢迎的社交网站“Facebook”和“Twitter”的名字出现在新闻报道中,电台和电视台的主持人将不允许在广播节目中提到这两个词语,除非是...
日期:07-28
研究生称坐5小时高铁跨省面试被鸽引热议 HR网友:应该线上节省时间
7月27日消息,你有没有跨省面试的经历?很多企业如果遇到异地的求职者,一般都会进行线上视频面试,最大好处就是节省双方时间,但西安一位求职者近日却因面试很糟心。vivo s10体验快...
日期:07-27
哪吒汽车CEO:车企的努力被某宝几十块的东西打败了_哪吒汽车是谁
不少车主都喜欢在自己的车上配置一些车载配件,方便用车同时还有美观装饰效果。不过,一些太拉胯的配件,汽车产品经理看到可能会血压飙升。日前,张勇在微博中表示,整车厂座和椅厂在...
日期:04-21
台积电3nm工艺量产时间「当前良率55%-分析师称台积电正推进3nm工艺」
IT之家 4 月 26 日消息,根据 EE Time 报道,台积电正“竭尽全力”地提高 3nm 工艺产能,满足苹果的大订单需求。分析师认为台积电当前在量产工艺、产量方面均出现了问题,导致交付...
日期:10-01
红米note11pro预计售价「红米旗舰Note12入网!预计售价2K以内」
中关村在线消息:9月29日,据相关爆料,红米Note 12系列(型号为22101316C)获得3C认证,标准版将采用67W充电方案,高配版或采用120W快充方案,性价比将远超Note11系列。据悉,新机将采用天玑...
日期:09-30
淘宝ceo张勇_淘宝商城内讧消费者受损 总裁张勇很无奈
  淘宝商城内讧事件后续>   “淘宝之战在继续,这个游戏有多少个面会受伤呢?”昨日,有组织的针对淘宝商城大卖家以及聚划算等淘宝官方平台的恶意攻击行为还在继续,昨日下午...
日期:07-24
酷冷至尊高刷显示器新品特价仅需599元「酷冷至尊显卡」
国内电竞装备品牌酷冷至尊于4月4日推出入门级游戏显示器——GA241,售价仅为599元。该款显示器采用23.8英寸VA显示屏,具有三边无边框设计和178°可视角度,支持100Hz高刷新率和1m...
日期:04-05
iphone12pro max免税店「iPhone14 Plus免税版开售:才便宜200元?」
iPhone 14 Plus终于开售,不过6999元的价格却偏贵,使得开售就破发。目前海南免税店的iPhone 14 Plus也开售,但低配版只比官网便宜209元。根据海南免税店发布的消息,iPhone 14 Plu...
日期:10-23
然后就离开了 「OpenAI」-CEO,当年马斯克骂我们都是蠢货
8月22日消息,人工智能研究公司OpenAI首席执行官萨姆·奥特曼(Sam Altman)最近接受采访时,谈及了埃隆·马斯克(Elon Musk)于2018年宣布退出带来的影响。奥特曼称,此举震惊了整个公司...
日期:09-16
饿了么发布23年版《高校恋爱图鉴》 浙江大学终于“脱单”「高校恋爱cp地图 饿了么」
2月13日 消息:近日,饿了么发布了23年版《高校恋爱图鉴》,数据显示“外卖传情”仍受00后大学生欢迎,尤其是跨校党。榜单上,清华大学与北京大学、复旦大学与上海交通大学以及武汉...
日期:02-15
animatediff最新模型下载 animatediff软件下载2023版地址_animatetransform
AnimateDiff是一个用于比较和生成动画的库或工具。它可以用于在两个或多个图像之间创建平滑的过渡效果,使它们在一定时间内逐渐转换或变化。那么animatediff该如何使用呢?下面...
日期:10-31
天猫以旧换新不能享受优惠吗「天猫投入5亿元加码以旧换新 支持送货上门同时取旧」
3月8日 消息:天猫近日重磅宣布,将携手合作伙伴共同投入高达5亿元的资金,加码以旧换新补贴政策,同时扩大补贴商品的种类和力度,旨在进一步推动以旧换新活动的发展。一加智能手表o...
日期:03-08
Shopee今年8月越南用户数接近4450万_不知道的世界作者
9月29日消息,全球移动通信系统协会(GSMA)在今年8月发布的数字社会指数报告显示,Shopee的用户接近4450万,比去年增加了25.69%。目前越南的主要数字平台是Zalo,每月用户超过7500万,比...
日期:10-02
报告:2022年棋牌与桌游市场收入分别达66亿美元、14.8亿美元
12月12日 消息:今日,移动应用&手游情报平台 SensorTower发布了《2022年全球棋牌桌游市场洞察》,报告称,棋牌与桌游市场收入分别达66亿美元、14.8亿美元。报告分析称,受新冠疫情...
日期:12-12
CITE2023精彩演讲回顾:存算一体超异构为中国AI大算力芯片注入新动能「存算一体存储技术」
4月7-9日,以 “创新引领 协同发展” 为主题,由工业和信息化部与深圳市人民政府联手打造的第十一届中国电子信息博览会(CITE2023)在深圳隆重举行。亿铸科技在主题演讲、圆桌论坛...
日期:04-13
三星“光彩薄物馆”开馆 OLED电视新品重磅上市_三星全色激光电视
4 月 27 日,三星OLED电视新品发布会于上海举办。本次发布会以“薄采众长”为主题,重磅推出S95Z、S90Z两款产品,并宣布“光彩薄物馆”正式开馆。近年来,三星秉承“科技·艺术·家...
日期:04-28
英伟达发布 461.09 WHQL 驱动更新:修复众多漏洞
  1月10日消息 英伟达于 1 月 7 日发布了 2021 年首个正式版驱动更新,版本为 461.09。本次的 Game Ready 驱动支持《雷神之锤 2》RTX v1.4.0 版本,支持最终版本的 Vulkan...
日期:08-20
杭州法华寺月薪8万招聘和尚?传授72绝技?假的_杭州法华寺方丈简介
2月7日,一则所谓法华寺招聘和尚”的消息在网上流传,号称方丈住持津贴为每月8万元以上,不过经证实这是虚假信息。据悉,法华寺位于杭州市西湖区北高峰下,是一处佛教活动场所。firef...
日期:02-08
中科院专家谈ChatGPT:被过度炒作和神化 不久就是白菜价
快科技5月16日讯,对于热门的生成式AI工具ChatGPT的走红,凤凰网科技与中科院自动化所复杂系统管理与控制国家重点实验室主任、中科慧拓首席科学家王飞跃做了对话交流。作为AI和...
日期:05-17