您的位置:首页 > 互联网

超越ControlNet++!腾讯优图提出动态条件选择新架构_腾讯优图官网

发布时间:2024-12-29 15:52:00  来源:互联网     背景:

声明:本文来自于微信公众号 量子位,作者:何庆东,授权转载发布。

超越ControlNet++,让文生图更可控的新框架来了!

2022年华为5g

ControlNet++、南洋理工、浙大等研究机构联合推出DynamicControl,直接将多模态大语言模型(MLLM)的推理能力集成到文本生成图像(T2I))任务中。

而且还提出了一种新颖、高效的多控制适配器,可以自适应地选择不同的条件,从而实现动态多控制对齐。

实验结果显示,DynamicControl大大增强了可控性,且不会牺牲图像质量或图像文本对齐。

话不多说,下面来看具体内容。

DynamicControl:动态条件选择新架构

基于ControlNet类模型,之前的工作探索了各种控制信号,例如布局约束、分割图和深度图,以决定生成的图像中的空间排列、物体形状和景深。

此外,该领域还见证了使用快速工程和交叉注意约束来进一步完善图像生成的调节。

不过现有方式均存在各自的局限性。

比如,考虑到一个对象的多种条件,一条线路(例如UniControl、UniControlNet)在训练过程中随机选择一次激活一种条件,如图1(a) 所示。

这种处理不同视觉条件的能力非常低效,将大大增加训练的计算负担和时间成本。

另一类方法(例如AnyControl、ControlNet++)使用固定数量(通常为2或4)的条件,并采用MoE设计或多控制编码器来解决条件数量变化的问题,如图1(b) 所示。

然而,这种固定数量方案并没有从根本上解决多条件问题,也没有考虑多条件是否与生成结果相冲突。

虽然这些方法扩展了受控图像生成的可行性和应用,但在不同条件下增强可控性的清晰而全面的方法仍然是一个正在进行的研究和开发领域。这凸显了在T2I扩散模型中集成和优化控制机制以实现更可靠和更详细的图像合成方面需要不断创新。

蜻蜓fm在线广播

三大运营商份额变化

给定来自同一主题的多个条件,对于相同的文本提示,不同的条件在颜色、纹理、布局,合理性等方面产生不同的结果。

此外,从与源图像的相似度SSIM得分来看,不同的条件难以准确生成与输入源图像一致的图像。这也表明不同条件对生成更好图像的贡献不同,有些条件甚至会产生负面影响。

因此,在先前的方法中,仅选择一个或固定数量的条件而不考虑它们在生成更接近源图像的图像方面的重要性以及每个条件之间的内部关系是次优的。

为了解决这个问题,研究提出了DynamicControl,这是一个支持多种控制信号动态组合的新框架,它可以自适应地选择不同数量和类型的条件,如图1(c)所示。

具体咋做到的

算法的整体流程如下图所示。

给定多种条件,研究首先引入双循环控制器来产生真实的排名分数,作为与MLLM结合训练条件评估器的监督信号。

然后,这些排名的条件与来自预训练条件评估器的选择分数由多控制适配器动态编码,以实现可控的图像生成。

Double-Cycle Controlle

鉴于研究将多条件可控性概念化为输入条件之间的动态选择,因此使用判别奖励模型来衡量这种选择是可行的。

通过量化生成模型的输出,研究能够依靠这些定量评估来集体增强各种条件控制的优化,以促进更可控的生成过程。

具体来说,给定多个条件和文本提示,研究首先利用预训练的条件生成模型为每个条件生成图像。

然后通过不同的预训练判别模型提取相应的反向条件。

基于这些生成的图像和反向条件,研究设计了一个双循环控制器,对输入的多个控制条件进行初始重要性评估。该双循环控制器由两个一致性分数组成,即条件一致性和图像一致性。

(1)条件一致性。对于每个输入条件和生成图像的相应输出条件,研究优化了条件循环一致性损失以获得更好的可控性,其公式为:

这里研究对扰动图像执行单步采样,其中D是判别奖励模型,用于优化G的可控性。L表示抽象度量函数,可根据特定的视觉条件适应各种具体形式。

这种灵活性使其能够根据不同视觉分析任务的独特要求进行定制,从而增强模型在不同场景中的适用性和有效性。

(二)反向图像一致性。除了条件一致性之外,研究还采用反向图像一致性损失来保证原始图像与生成的图像相似。

研究通过最小化生成的图像和源图像之间的像素和语义差异来实现这一点。给定源图像和生成的图像的CLIP嵌入,损失定义为:

这种损失确保模型在应用条件和文本指令时能够忠实地反转条件并返回到源图像,通过最小化源图像和生成的图像之间的差异来强制执行模型。

Condition Evaluator

虽然双循环控制器可以对各种控制条件进行综合评分,但仍然面临两个挑战:

(i)使用预先训练的生成模型进行图像合成都会给结果带来较高的不确定性,这意味着对所采用的基础生成模型的依赖性很高。

(ii)源图像在测试过程中不可用,尤其是在用户指定的任务中。为了解决这个问题,研究在网络架构中引入了多模态大语言模型(MLLM)。

如图3所示,给定条件c1、c2、…、cN和指令τ,研究的主要目标是利用双周期控制器的得分排序来优化条件的最佳排序。

研究用N个新标记“<con0>、…、<conN>”,扩展了LLaVA的原始LLM词汇表以表示生成信息,并将这些标记附加到指令τ的末尾。

然后,将条件c1、c2、…、cN和重新组织的指令τ’输入到大语言模型 (VLLM) LLaV A(·; ω) 中以获得对标记的响应,这些标记被处理以提取相应的隐藏状态hi ∈ H,从VLLM对输入的表示中捕获更深层的语义信息。

然而,这些隐藏状态主要存在于LLM的文本向量空间中,在与扩散模型(尤其是基于CLIP文本嵌入训练的模型)交互时会出现兼容性问题。这种差异可能会阻碍模型之间的有效集成。

考虑到这一点,研究迁移了Q-Former,以将隐藏状态细化为与扩散模型兼容的嵌入fc。

转换过程表示为:

循环优化过程可以表述为:

随后,每个条件的LLM预测结果由双循环控制器的相应排序分数进行监督,从而优化最终的排序排名。该过程表示为:

多控制适配器动态编码

为了适应多种动态控制条件的同时应用,作者们创新性地设计了一个多控制适配器。该适配器用于自适应地解释复杂的控制信号,从而能够从文本提示和动态空间条件中提取全面的多控制嵌入。

在获得经过良好预训练的条件评估器后,可以利用其强大的理解能力对所有输入条件进行评分。

从评分条件池中,只有那些达到或超过预定义阈值的条件才会被选中参与后续的T2I模型优化。

这种选择性方法确保只有最相关和最高质量的条件才能参与训练过程,从而有可能提高T2I模型的有效性和效率。

关于阈值设置,它不是手动预定义的,也不是在训练集内的所有数据对中保持一致的。相反,它被配置为一个可学习的参数,允许模型自适应地确定和调整各种数据集的阈值。

因此,这种自适应机制导致动态和多样化的控制条件在数量和类型上都没有冲突。

这些条件在训练过程中的使用取决于每个数据集的具体特征。这种方法确保训练能够根据各种数据输入的独特需求和细微差别进行量身定制。

实验结果

概括而言,来自各种条件控制的实验结果表明,DynamicControl大大增强了可控性,而不会牺牲图像质量或图像文本对齐。

其中,不同条件控制和数据集下的可控性比较如下。

不同条件控制和数据集下的FID(↓)/ CLIP 分数(↑)比较如下。

可视化结果也出来了。

总结

在论文中,研究从定量和定性的角度证明了现有的专注于可控生成的研究仍然未能充分利用多种控制条件的潜力,导致生成的图像与输入条件不一致。

为了解决这个问题,研究引入了DynamicControl ,它使用高效的条件评估器对条件进行排序,明确优化了多个输入条件和生成的图像之间的一致性,从而将MLLM的推理能力集成到T2I生成任务中。

此外,研究还提出了一种新颖而高效的多控制适配器,可以自适应地选择不同的条件,从而实现动态多控制对齐。

来自各种条件控制的实验结果表明,DynamicControl大大增强了可控性,而不会牺牲图像质量或图像文本对齐。

这为可控视觉生成提供了新的视角。

销售额百亿商场

论文:

https://arxiv.org/abs/2412.03255

项目主页:

https://hithqd.github.io/projects/Dynamiccontrol/

腾讯优图提供技术支持


返回网站首页

本文评论
ios 17+「17推出时间确定 「多项史诗级功能_iOS」」
苹果即将于6月6日至10日举行全球开发者大会(WWDC 2023),向用户推出iOS 17、iPadOS 17、tvOS 17、watchOS 10和macOS 14新系统。当当网自出版事业部余承东畅谈在华为的24年其中,i...
日期:09-17
OpenAI与Stripe达成合作 将ChatGPT和Dall-E等生成式AI产品商业化
3月16日消息,据外媒报道,美国人工智能研究公司OpenAI已与支付公司Stripe达成合作,将其生成式人工智能(AI)产品ChatGPT和Dall-E货币化。据报道,这两家公司的合作是双向的。OpenAI选...
日期:03-16
iOS 17.2.1 续航测试出炉,这款机型必升_ios15.0.2续航测试
12 月 20 日,苹果发布了 iOS 17.2.1 正式版更新。新版本系统中主要以修复 Bug 与提升系统稳定性为主,并未带来任何功能方面的更新。苹果在更新日志中提到,本更新包含了重要的错...
日期:12-23
NASA 好奇号已在火星上行驶 4000 天,尽管关节磨损但仍然坚强
IT之家 11 月 8 日消息,美国宇航局的好奇号火星车在火星上已度过了 4000 天,这台探测车虽然已经出现了一些磨损的迹象,但仍然继续在这颗红色星球上探索。小米双11战绩好奇号火...
日期:11-10
第三届网络空间内生安全发展大会圆满落幕_网络空间安全赛项
(原标题:第三届网络空间内生安全发展大会圆满落幕) 12月9日下午,由江苏省委网信办指导,南京市委网信办、紫金山实验室和中国通信...
日期:12-11
特斯拉落户墨西哥 7家中国供应商被邀共同前往_特斯拉搬到印度
快科技8月7日消息,据悉,今年5月,特斯拉正式开始在墨西哥的蒙特雷附近建设它的6号超级工厂”。近日,有至少七家在中国上市的汽车零部件制造商宣布计划向墨西哥扩张,以配合特斯拉在...
日期:08-07
小米 SU7 搭载 AI 大模型:小爱同学秒识前车车型
划重点:⭐️ 小米 SU7搭载 AI 大模型,配合小爱同学语音助手,带来智能驾驶体验。⭐️ 小爱同学具有1.1亿月活动用户,每天激活次数达2.08亿次。⭐️ 小米 SU7支持语音深度控车,可识别车...
日期:03-29
唯品会第二季度营收245亿元 Non-GAAP净利润16亿元(唯品会盈利模式分析)
讯 北京时间8月19日下午消息,唯品会(NYSE:VIPS)今日发布了截至6月30日的2022年第二季度财报。财报显示,唯品会第二季度总净营收为245亿元(约合37亿美元),而去年同期为296亿元。归属...
日期:08-20
震撼来袭!酷睿Ultra AI强芯加持,华硕破晓Pro14今日开售,活动价5599元!_华硕破晓pro15首发价
以GPT大语言模型为代表的AI应用在2024年迎来井喷式发展,追求高效、智慧办公生产、一台搭载酷睿Ultra AI处理器的笔记本电脑必不可少。4月24日,备受商务办公人士追捧的华硕破晓...
日期:04-24
外形如何?小米汽车明年推出 目标世界前五:雷军称汽车盈利靠软件服务
在小米投资者日上,小米CEO雷军等高管分享了小米的业务进展。对于小米汽车的盈利问题,雷军表示,长期和小米手机一样,除了硬件利润,更在意软件利润。在雷军看来,汽车以往可以整合销...
日期:02-13
三星r439_三星r439笔记本内存
是一个笔记本电脑系列,代表了三星在轻便、高性能笔记本电脑领域的一种设计理念。该系列的特点是轻薄便携,但性能却出色,性价比极高。下面我们将从外形设计、硬件配置、性能表现...
日期:06-04
arm架构 高通「ARM大变脸 要对高通“赶尽杀绝”:不给授权开发CPU」
和NVIDIA的联姻失败后,ARM公司似乎正考虑大幅调整自己的经营方式。魅族note8摄像头日前,高通在反诉ARM的文件中提到,后者酝酿在2024年后(2025年起)不再给半导体公司颁发完整的IP...
日期:11-04
联想s880怎么样_联想s820好用吗
联想S880是一款拥有强大硬件性能和良好外观设计的智能手机,它被广泛应用于不同场景,如社交娱乐和商务办公等领域。下面将从性能、设计、系统、拍照和其他方面为大家详细介绍联...
日期:05-31
金融壹账通亮相2021世界人工智能大会 践行科技让金融更有温度_金融壹账通智能科技有限公司
  7月8日至10日,以“智联世界、众智成城”为主题的2021世界人工智能大会在上海举行,本届大会围绕“AI赋能城市数字化转型”,共同探讨人工智能技术创新与产业落地的前沿进展,...
日期:09-09
签下爵根仕 好乐买正品矩阵再度丰富
  9月1日,国内最大正品鞋网上商城Okbuy好乐买正式宣布与DragonSea(爵根仕)品牌签署全面战略合作协议,宣布双方正式结盟,达成深度战略合作,爵根仕全系产品纳入好乐买销售渠道...
日期:07-22
全网沸腾!阿根廷夺世界杯冠军:梅西圆梦加冕球王 拿下金球奖/大力神杯
今天凌晨,在卡塔尔世界杯决赛上,,阿根廷常规时间3-3战平法国。点球大战4-2战胜法国,夺得最后的冠军。本场比赛梅西上演双响,他在整届世界杯的完美表现,让他获得了世界杯金球奖。梅...
日期:12-19
成本422美元、国产价值占比47%!华为Mate60 Pro被高估?_华为mate60手机价格及图片
自从华为Mate60 Pro系列发布后,外界就出现了很多“沸腾”、“吹捧”、“自嗨”的声音。支持华为的同时也开始叫嚣苹果,什么“苹果卖不动了”、“苹果的地位被动摇”、“华为弯...
日期:11-16
对标iPhone 15 Pro Max潜望?真我:潜望长焦新品已在路上_真我v15深度测试
近日,真我在社交平台上发布了一张海报,暗示其下一代新品将配备潜望长焦镜头。海报显示,真我下一代新品将采用三摄方案,其中一为矩形镜头,这颗镜头为潜望式长焦。同时,海报还通过暗...
日期:09-27
iPhone 15 Pro将支持6倍光学变焦:依然落后国产手机「iphone12pro五倍光学变焦」
据MacRumors消息,iPhone 15系列将全系标配USB-C接口,速度上不同,这可能是欧盟法规倒逼的结果。报道指出,iPhone 15 Pro后置主摄升级,采用“潜望镜镜头”技术,可实现5-6倍光学变焦(...
日期:05-02
中通快递将于10月1日起暂停中缅航空寄递业务_中通快递将于10月1日起暂停中缅航空寄递业务什么意思
9月28日消息,中通快递缅甸公司官微今日发布消息称,因受缅甸海关进出口管理限制影响,公司空运时效难以保证。经过慎重考虑,公司决定10月1日起暂停中缅航空寄递业务,请广大客户知悉...
日期:10-02