您的位置:首页 > 互联网

深入解析SDXL潜在空间以及如何改善其生成图像的方法

发布时间:2023-11-24 13:18:20  来源:互联网     背景:

要点:

  • SDXL潜在空间包括4个通道,分别是亮度、青/红、绿/紫、图案/结构。

  • SDXL生成的颜色范围偏向黄色,原因是模型在生成过程中更偏向认知中的亮度、青/红、绿/紫,而相对较少使用蓝色。

  • 通过实验性地探索SDXL潜在空间,作者提出了一些纠正SDXL输出的方法,包括去除异常值、平衡颜色、增加颜色范围等。

11月24日 消息:近日,Hugging Face社区成员Timothy Alexis Vass撰写了一篇名为《Explaining the SDXL latent space》的文章,重点解释了SDXL(可能是Super Diffusion XL)潜在空间的特性以及如何改善其生成图像的方法。

据了解,SDXL潜在空间的结构包括四个通道,分别对应图像的亮度、青/红、绿/紫、以及图案/结构。这为理解SDXL生成的图像提供了基础。

SDXL生成的图像往往存在颜色偏向黄色的问题,这是因为模型更倾向于使用亮度、青/红、绿/紫这几个主要颜色,而相对较少使用蓝色。通过对SDXL潜在空间的实验性探索,Timothy Alexis Vass提供了一种直接将SDXL潜在空间转换为RGB图像的线性逼近方法。此方法允许在生成图像之前对颜色范围进行调整,从而避免在后处理阶段进行矫正。

我们可以创建一个近似函数,直接将潜在变量转换为 RGB:

deflatents_to_rgb(latents):

在实际操作中,Timothy Alexis Vass提出了一些纠正SDXL输出的方法,包括去除异常值、平衡颜色、增加颜色范围等。通过一系列的代码实现,他展示了如何在生成图像的过程中应用这些方法,从而改善图像的质量。这些方法包括对潜在空间进行软裁剪、颜色平衡和范围增加等。

SDXL 颜色范围偏向黄色的可能原因

对付远光狗的神器

自然界中相对较少的东西是蓝色或白色的。在愉快的条件下,这些颜色在天空中最为突出。因此,该模型通过图像了解现实,以亮度(通道0)青色/红色(通道1)和石灰/中紫色(通道2)进行思考,其中红色和绿色是主要的,蓝色是次要的。这就是为什么 SDXL 世代通常偏向黄色(红色 + 绿色)。

在推理过程中,张量中的值将从min < -30和开始max >30,解码时的最小/最大边界大约-4为4。guidance_scale值越高,min和之间的差异就越大max。

理解边界的关键之一是查看解码过程中发生的情况:

decoded=vae.decode(latents/vae.scaling_factor).sample#(SDXLvae.scaling_factor=0.13025)decoded=decoded.div(2).add(0.5).clamp(0,1)#Thedynamicsoutsideof0to1atthispointwillbelost

如果此时的值超出0到1的范围,则钳位中的一些信息将会丢失。因此,如果我们能够在去噪过程中进行修正,以满足 VAE 的预期,我们可能会得到更好的结果。

需要纠正什么?

如何锐化模糊图像、白平衡、改善细节、增加对比度或增加颜色范围?最好的方法是从清晰的图像开始,该图像具有正确的白平衡、良好的对比度、清晰的细节和高范围。

模糊清晰的图像、改变色彩平衡、降低对比度、获取无意义的细节以及限制色彩范围比改善图像要容易得多。

SDXL 具有非常明显的颜色偏差倾向,并将值置于实际边界之外(左图)。通过将值居中并将它们置于边界内(右图)可以轻松解决这个问题:

defcenter_tensor(input_tensor,per_channel_shift=1,full_tensor_shift=1,channels=[0,1,2,3]):forchannelinchannels:

让我们以 SDXL 的输出为例

seed:77777777

请注意,我特意选择了较高的指导尺度。

我们如何修复这个图像?一半是绘画,一半是照片。颜色范围偏向黄色。右侧是具有完全相同设置的固定一代。

星河动力谷神星一号发射

但在合理guidance_scale设置为7.5的情况下,我们仍然可以得出结论,固定输出更好,没有无意义的细节和正确的白平衡。

我们可以在潜在空间中做很多事情来总体改进一代,并且我们可以做一些非常简单的事情来针对一代中的特定错误:

异常值去除

这将通过修剪距分布平均值最远的值来控制无意义细节的数量。它还有助于以更高的guidance_scale进行生成。

#Shrinkingtowardsthemean(willalsoremoveoutliers)defsoft_clamp_tensor(input_tensor,threshold=3.5,boundary=4):ifmax(abs(input_tensor.max()),abs(input_tensor.min()))<4:returninput_tensor

色彩平衡和增加范围

我有两种主要方法来实现这一目标。第一个是在标准化值的同时向平均值收缩(这也将消除异常值),第二个是在值偏向某种颜色时进行修复。这也有助于生成更高的guidance_scale。

#Centertensor(balancecolors)defcenter_tensor(input_tensor,channel_shift=1,full_shift=1,channels=[0,1,2,3]):forchannelinchannels:

张量最大化

这基本上是通过将张量乘以一个非常小的量(例如1e-5几个步骤)来完成的,并确保最终张量在转换为 RGB 之前使用完整的可能范围(接近 -4/4)。请记住,在像素空间中,在保持完整动态的情况下降低对比度、饱和度和清晰度比增加对比度、饱和度和清晰度更容易。

#Maximize/normalizetensordefmaximize_tensor(input_tensor,boundary=4,channels=[0,1,2]):

回调实现示例

defcallback(pipe,step_index,timestep,cbk):iftimestep>950:

最后,Timothy Alexis Vass展示了在高引导比例下使用长提示进行生成的图像,通过对颜色范围的调整,使得整个提示成为可能。通过这些方法,可以在生成图像的初步阶段就对输出进行改善,而不是在后期进行矫正。这为提高SDXL生成图像质量提供了一种新的思路。


返回网站首页

本文评论
一加12g「一加12下周官宣发布时间:首发国产2K东方屏」
快科技11月10日消息,博主熊猫很禿然微博透露,一加会在下周正式公布一加12发布会时间,预计在11月下旬。根据官方公布的信息,一加12至少有两大核心卖点,一是首发国产2K东方屏,官方称...
日期:11-10
1688通天计划加入要求「1688:通天打爆计划11月1日起全面升级」
11月1日 消息:今日,1688平台发布通知称,通天打爆计划将于2022年11月1日进行全面升级。具有来说,平台将通过两个步骤完成本轮通天打爆的升级:第一步:2022年11月1日,“通天打爆商...
日期:11-02
张一鸣卸任字节跳动法定代表人及执行董事,张利东接任(张一鸣卸任字节跳动ceo)
  1 月 27 日消息,1 月 26 日,北京字节跳动网络技术有限公司发生工商变更,张一鸣卸任法定代表人及执行董事,由张利东接任。同时公司经营范围新增摄影扩印服务。企查查信息显...
日期:07-17
mini led ipad「mini-LED将停产!曝新iPad Pro明年登场:屏幕升级为OLED」
快科技9月6日消息,据苹果供应链消息,苹果计划在2024年年中发布新款iPad Pro,包含11英寸和13英寸两种尺寸,新iPad Pro将会采用OLED屏幕。报道同时指出,在新iPad Pro发布之后,苹果供...
日期:09-06
史上最耐用铰链!谷歌Pixel Fold折叠屏手机发布:处理器独一无二_谷歌pixel2xl是曲面屏吗
快科技5月11日讯,今晨的谷歌I/O大会上,Pixel Fold折叠屏手机发布,256GB定价1799美元,512GB定价1919美元,黑白双色,6月27日正式发售出货,预购送Pixel Watch。Pixel Fold号称拥有目前...
日期:05-11
珠江电钢再出新品,三款艾茉森智能钢琴5月1日正式公售!(珠江艾茉森电钢琴哪款好)
  据官方消息,5月1日珠江钢琴旗下品牌--珠江艾茉森三款电钢新品正式全球公开发售,并同步开启公售渠道,据预订情况看此次新品整体市场反响优异。   此前3月,珠江艾茉森在新...
日期:10-28
美国芯片制造的局限性:狂砸1.4万亿也难摆脱对台依赖「中国因芯片而受制于美国」
凤凰网科技讯 北京时间1月3日消息,美国拜登政府正在大力投资芯片制造,规模堪比冷战时期在太空竞赛上的投资。但是美国媒体指出,钱不是万能的,即便是疯狂的投资也有它的局限性,它...
日期:01-03
BOSS直聘报告:三成女性曾隐瞒怀孕事实 85%晋升受到严重影响
11月16日 消息:近日,BOSS直聘发布的《2020职场女性生存状况观察》显示,职场女性决定是否生育时,考虑最多的问题是“怀孕和生产时间较长,可能影响职场晋升”,占比达38.8%。3成已育...
日期:08-01
投资人更关注Apple何时推出类ChatGPT-服务  郭明錤_ios类
【】6月5日消息,苹果公司即将在明天凌晨举行 WWDC 大会,苹果可能会发布虚拟现实和增强现实的头戴设备。知名分析师郭明錤近日表示,他在和投资者讨论中发现,比起虚拟现实设备,投资...
日期:09-25
图灵奖得主Hinton入局机器人创业 新公司获得9000万美元投资_图灵机器人官方网站
要点:图灵奖得主Geoffrey Hinton将担任初创公司Vayu Robotics的顾问,这标志着他重返机器人领域。Vayu Robotics是一家强调AI应用的初创公司,拥有强大的团队和创新技术,获得了90...
日期:10-13
共赴未来!百度智能云千帆大模型平台黑客马拉松即刻开启报名
Gartner 发布的《2023 年中国 ICT 技术成熟度曲线》显示,生成式 AI 目前处于期望膨胀期,预计将在两到五年内产生巨大效益。这意味着,随着大模型的不断迭代和产业的高速演化,生成...
日期:11-07
网友逛鱼店惊喜偶遇鲨鱼产子过程:第一次见 很神奇「鲨鱼生孩子是要产卵吗?」
月6日消息,广州一位网友逛鱼店偶遇鲨鱼产子。他说,第一次见,很神奇,鲨鱼总共生了3条,用了2个小时。苹果秋季新品发布会2020专家表示,很多人误以为鲨鱼是哺乳类的动物,是因为他们将...
日期:05-07
美团将于8月26日公布2022年第二季度财报数据「美团将于8月26日公布2022年第二季度财报」
  讯 8月16日下午消息,美团(香港联交所股份代号03690)今日宣布该公司将于2022年8月26日闭市后公布其截至2022年6月30日的第二季度财务业绩。  另外,美团2022年第二季度财务...
日期:09-25
迈入2亿像素时代!小米12T官宣10月4日发布_一亿像素小米10
前段时间,小米发布了Redmi K50系列的“宇宙终极大作”Redmi K50至尊版。而在近日,小米又官宣了将于10月4日举行全球发布会,带来小米12T、小米12T Pro至少两款新品。iphone12 双...
日期:09-29
Redmi K60至尊版发布:天玑9200 配1.5K直屏24GB超大内存 售2599元起
凤凰网科技讯(作者/郑乾坤)8月14日消息,小米于今日发布Redmi K60 至尊版,配备天玑9200 处理器和1.5K高亮度直屏,售价2599元起。同时还带来了24GB 1TB版本的超大内存版本售价3599...
日期:08-15
3万元钻戒如今只值2千 越来越多新人告别智商税 婚礼用十几元道具戒指
20世纪,钻石恒久远,一颗永流传”成为最为经典的广告语之一,也彻底改变了中国人婚庆以佩戴黄金、翡翠的传统习俗,一枚钻戒成为承载两人爱情最美好的信物。不过现在很多年轻人觉得...
日期:05-18
看牙,让00后贷款、90后“破产”「90后因为牙破产」
声明:本文来自于微信公众号 开菠萝财经(ID:kaiboluocaijing),作者 | 吴娇颖 编辑 | 金玙璠,授权转载发布。继第一批90后因为看牙“破产”,第一批00后已经开始为看牙贷款了。第四...
日期:10-06
爱奇艺回应一号三用被封:技术故障 不需要充值更贵会员解封_爱奇艺会员几个人用会封
爱奇艺回应“3 台设备同时登录被封”相关报道,称这是技术故障导致。早些时候,晨观新闻报道了一则新闻,称一名用户用三台设备登录爱奇艺被封,想要解封需要充值更贵的会员。爱奇...
日期:02-03
小米13T海外机型通过FCC认证,关键规格曝光「小米海外10t」
据报道,小米计划在海外市场推出新的机型系列——小米13T。该系列预计包括小米13T和小米13T Pro两款机型。身上到处青筋暴起什么原因iphone x发售价已通过多个平台认证的小米1...
日期:07-17
苹果弃用iOS设备唯一识别码 建议开发者停用(修改ios设备唯一识别码)
  北京时间8月22日,据国外媒体报道,苹果称将逐步弃用iOS设备的唯一设备标识符(unique device identifier),向第三方开发者建议,希望开发者停止在iPhone和iPad应用中使用可能...
日期:07-22