您的位置:首页 > 互联网

文生图片「比Stable Diffusion便宜118倍!1890美元训出11.6亿参数高质量文生图模型」

发布时间:2024-08-12 17:52:39  来源:互联网     背景:

声明:本文来自于微信公众号 新智元,作者:新智元,授权转载发布。

【新智元导读】近日,来自加州大学尔湾分校等机构的研究人员,利用延迟掩蔽、MoE、分层扩展等策略,将扩散模型的训练成本降到了1890美元。

训练一个扩散模型要多少钱?

之前最便宜的方法(Wuerstchen)用了28400美元,而像Stable Diffusion这样的模型还要再贵一个数量级。

552.5毫米是多少米

大模型时代,一般人根本玩不起。想要各种文生小姐姐,还得靠厂商们负重前行

为了降低这庞大的开销,研究者们尝试了各种方案。

比如,原始的扩散模型从噪声到图像大约需要1000步,目前已经被减少到20步左右,甚至更少。

当扩散模型中的基础模块逐渐由Unet(CNN)替换为DiT(Transformer)之后,一些根据Transformer特性来做的优化也跟了上来。

比如量化,比如跳过Attention中的一些冗余计算,比如pipeline。

而近日,来自加州大学尔湾分校等机构的研究人员,把省钱这个目标直接向前推进了一大步:

论文地址:https://arxiv.org/abs/2407.15811

——从头开始训练一个11.6亿参数的扩散模型,只需要1890美元!

对比SOTA有了一个数量级的提升,让普通人也看到了能摸一摸预训练的希望。

更重要的是,降低成本的技术并没有影响模型的性能,11.6亿个参数给出了下面这样非常不错的效果。

除了观感,模型的数据指标也很优秀,比如下表给出的FID分数,非常接近Stable Diffusion1.5和DALL·E2。

相比之下,Wuerstchen的降成本方案则导致自己的考试分数不甚理想。

省钱的秘诀

抱着Stretching Each Dollar的目标,研究人员从扩散模型的基础模块DiT入手。

首先,序列长度是Transformer计算成本的大敌,需要除掉。

对于图像来说,就需要在不影响性能的情况下,尽量减少参加计算的patch数量(同时也减少了内存开销)。

减少图像切块数可以有两种方式,一是增大每块的尺寸,二是干掉一部分patch(mask)。

因为前者会显著降低模型性能,所以我们考虑进行mask的方式。

最朴素的mask(Naive token masking)类似于卷积UNet中随机裁剪的训练,但允许对图像的非连续区域进行训练。

而之前最先进的方法(MaskDiT),在输出之前增加了一个恢复重建的结构,通过额外的损失函数来训练,希望通过学习弥补丢掉的信息。

这两种mask都为了降低计算成本,在一开始就丢弃了大部分patch,信息的损失显著降低了Transformer的整体性能,即使MaskDiT试图弥补,也只是获得了不太多的改进。

——丢掉信息不可取,那么怎样才能减小输入又不丢信息呢?

延迟掩蔽

本文提出了一种延迟掩蔽策略(deferred masking strategy),在mask之前使用混合器(patch-mixer)进行预处理,把被丢弃patch的信息嵌入到幸存的patch中,从而显著减少高mask带来的性能下降。

在本架构中,patch-mixer是通过注意力层和前馈层的组合来实现的,使用二进制掩码进行mask,整个模型的损失函数为:

与MaskDiT相比,这里不需要额外的损失函数,整体设计和训练更加简单。

而混合器本身是个非常轻量的结构,符合省钱的标准。

微调

由于非常高的掩蔽比(masking ratio)会显著降低扩散模型学习图像中全局结构的能力,并引入训练到测试的分布偏移,所以作者在预训练(mask)后进行了小幅度的微调(unmask)。

另外,微调还可以减轻由于使用mask而产生的任何不良生成伪影。

MoE和分层扩展

MoE能够增加模型的参数和表达能力,而不会显著增加训练成本。

作者使用基于专家选择路由的简化MoE层,每个专家确定路由到它的token,而不需要任何额外的辅助损失函数来平衡专家之间的负载。

此外,作者还考虑了分层缩放方法,线性增加Transformer块的宽度(即注意力层和前馈层中的隐藏层尺寸)。

由于视觉模型中的更深层倾向于学习更复杂的特征,因此在更深层中使用更多的参数将带来更好的性能。

实验设置

作者使用两种DiT的变体:DiT-Tiny/2和DiT-Xl/2,patch大小为2。

使用具有余弦学习率衰减和高权重衰减的AdamW优化器训练所有模型。

模型前端使用Stable-Diffusion-XL模型中的四通道变分自动编码器(VAE)来提取图像特征,另外还测试了最新的16通道VAE在大规模训练(省钱版)中的性能。

作者使用EDM框架作为所有扩散模型的统一训练设置,使用FID以及CLIP分数来衡量图像生成模型的性能。

文本编码器选择了最常用的CLIP模型,尽管T5-xxl这种较大的模型在文本合成等具有挑战性的任务上表现更好,但为了省钱的目标,这里没有采用。

训练数据集

使用三个真实图像数据集(Conceptual Captions、Segment Anything、TextCaps),包含2200万个图像文本对。

由于SA1B不提供真实的字幕,这里使用LLaVA模型生成的合成字幕。作者还在大规模训练中添加了两个包含1500万个图像文本对的合成图像数据集:JourneyDB和DiffusionDB。

对于小规模消融,研究人员通过从较大的COYO-700M数据集中对10个CIFAR-10类的图像进行二次采样,构建了一个名为cifar-captions的文本到图像数据集。

评估

使用DiT-Tiny/2模型和cifar-captions数据集(256×256分辨率)进行所有评估实验。

对每个模型进行60K优化步骤的训练,并使用AdamW优化器和指数移动平均值(最后10K步平滑系数为0.995)。

延迟掩蔽

实验的基线选择我们上面提到的Naive masking,而本文的延迟掩蔽则加入一个轻量的patch-mixer,参数量小于主干网络的10%。

文生图片

一般来说,丢掉的patch越多(高masking ratio),模型的性能会越差,比如MaskDiT在超过50%后表现大幅下降。

这里的对比实验采用默认的超参数(学习率1.6×10e-4、0.01的权重衰减和余弦学习率)来训练两个模型。

上图的结果显示了延迟屏蔽方法在FID、Clip-FID和Clip score三个指标上都获得了提升。

并且,与基线的性能差距随着掩蔽率的增加而扩大。在掩蔽率为75%的情况下,朴素掩蔽会将FID分数降低至16.5,而本文的方法则达到5.03,更接近于无掩蔽时的FID分数(3.79)。

超参数

沿着训练LLM的一般思路,这里比较两个任务的超参数选择。

首先,在前馈层中,SwiGLU激活函数优于GELU。其次,较高的权重衰减会带来更好的图像生成性能。

另外,与LLM训练不同的是,当对AdamW二阶矩 (β) 使用更高的运行平均系数时,本文的扩散模型可以达到更好的性能。

最后,作者发现使用少量的训练步骤,而将学习率增加到最大可能值(直到训练不稳定)也显著提高了图像生成性能。

混合器的设计

苹果或推出iphone14plus多少钱

大力出奇迹一般都是对的,作者也观察到使用更大的patch-mixer后,模型性能得到持续改善。

然而,本着省钱的目的,这里还是选择使用小型的混合器。

作者将噪声分布修改为 (−0.6,1.2),这改善了字幕和生成图像之间的对齐。

如下图所示,在75% masking ratio下,作者还研究了采用不同patch大小所带来的影响。

唯品会海外购

当连续区域变多(patch变大)时,模型的性能会下降,因此保留随机屏蔽每个patch的原始策略。

分层缩放

这个实验训练了DiT-Tiny架构的两种变体,一种具有恒定宽度,另一种采用分层缩放的结构。

两种方法都使用Naive masking,并调整Transformer的尺寸,保证两种情况下的模型算力相同,同时执行相同的训练步骤和训练时间。

由上表结果可知发现,在所有三个性能指标上,分层缩放方法都优于基线的恒定宽度方法,这表明分层缩放方法更适合DiT的掩蔽训练。

参考资料:

https://arxiv.org/abs/2407.15811


返回网站首页

本文评论
2016年在线广告支出770亿美元 超电视广告_卫视广告2017
8月28日消息,据国外媒体报道,据市场研究公司Forrester Research最新发表的研究报告称,尽管经济下降,电视广告也许会做得同样好。但是,在未来五年里,在线广告将超过电视广告。到2...
日期:07-22
携程推出企业生育补贴:每孩每年1万元 连发5年
6月30日消息,携程集团宣布,推出针对全球员工的生育补贴政策——“程二代程长礼金”。2023年7月1日起,入职满3年的全球员工,不论性别,每新生育一个孩子,将获得每年一万元的现金补贴...
日期:06-30
spacex发射多少火箭「SpaceX正在大肆招聘 准备把加州发射火箭的数量增加一倍」
SpaceX正计划大幅提高其从美国西海岸发射火箭的频率,这一信息来自于SpaceX的猎鹰9号运营经理为该公司在西海岸发射设施招募新员工的广告。SpaceX从三个地点发射任务,其中两个...
日期:09-17
牛年即将来临 想清楚开言英语提出的这十大问题未来必定更优秀
  再有几天的时间,我们就将迎来华人最重要的节日春节了,在这辞旧迎新之际,你有没有想过让牛年更加的顺利?为此,国内领先的在线英语教育品牌、字节跳动大力教育旗下教育产品开...
日期:07-16
6个月亏掉5万亿!孙正义用一幅画开启自省_孙正义收拾烂摊子:花30亿让他走人
见习记者/戚夜云   在软银集团财报发布会伊始,创始人兼CEO孙正义展出一幅与主题毫不相干的颦像。这是德川家康的自画像,在轻敌冒进吃了生平唯一的败仗(三方原合战)之后,命画师...
日期:08-17
凤凰台刘爽「凤凰新媒体CEO刘爽将离职 董事长孙玉胜或将兼任CEO」
3月26日消息,今日有传闻称凤凰新媒体CEO刘爽即将离职;对此消息,有消息人士向网易科技透露消息属实,并称凤凰新媒体董事长孙玉胜有可能会兼任CEO。据消息称,凤凰新媒体已经发邮件...
日期:03-26
The Rundown AI官网体验入口 人工智能资讯平台使用地址_run down the stairs
The Rundown AI是一个人工智能资讯平台,为读者提供最新的人工智能发展动态,包括技术、人才、产品等方方面面的信息。读者可以通过订阅获取及时更新,并且内容覆盖各行业的人工智...
日期:04-09
官宣:小米13发布会延期「小米13号发布会在哪直播」
今天下午,小米官方发文宣布,小米13系列发布会延期举行,新的发布日期暂时未公布,将在确认后第一时间通知,届时快科技也会及时报道,并进行发布会直播。华为丁耘讲话这次小米发布会上...
日期:12-02
被北大录取女生分享经验强调没手机 网友:我的手机危险了「北大招女生」
近日,一位被北大录取的女生分享自己的学习经验,她强调自己没有手机,并认为手机和学习没有必然联系。她表示,手机会让人上瘾,难以自我控制,希望老师和家长能够限制手机使用,对于自控...
日期:07-21
不恐慌不信谣积极应对,百度地图让你提早知道身边的发热门诊有哪些?
  2020年大年初二,新一年里“云拜年”的第二天,新型冠状病毒感染所致肺炎的疫情继续牵动全国人的心。在全国各地的迅速响应下,一场与病毒的斗争已全面展开。医护人员“逆行...
日期:10-14
小鹏MONA-M03将于8月上市 8月1日起陆续到店  何小鹏_小鹏 nio
【】7月31日消息,据媒体报道,昨日晚间,小鹏汽车举办AI智驾技术发布会,小鹏汽车CEO何小鹏表示,小鹏MONA M03将于8月正式上市,8月1日起首批展车陆续抵达全国百城门店。咪咕快游2021...
日期:07-31
诺基亚将在欧洲推出XR21 5G手机 售价649欧元起
【手机中国新闻】根据Canalys预测来看,在未来欧洲智能手机市场将有着至少7%的增长空间,因此不少手机品牌都将目光放在了这片市场之中,诺基亚也是其中一个。为此HMD公司开发了设...
日期:10-06
单数据源和多数据源_为什么说“多源数据整合”是低代码的必备功能?
  在中国软件网行业协会等机构联合发布的《2020 中国低代码开发平台十大发展趋势》中显示,低代码开发平台的集成能力将更受重视。作为系统集成的重要组成部分和基础能力,多...
日期:07-14
中兴通讯发布业界首款Wi-Fi 7 FTTR网关新品「中兴通讯路由器官网」
通信世界网消息(CWW)6月4日,在第31届中国国际信息通信展上,中兴通讯重磅发布了业界首款Wi-Fi 7 FTTR网关新品,包括主网关ZXHN G7705和从网关ZXHN G1715。主网关采用XG-PON/10G EP...
日期:06-04
投资者热捧AI芯片,AMD英伟达股价创新高_投资者热捧ai芯片,amd英伟达股价创新高的股票
1月19日消息,由于投资者继续追捧制造人工智能芯片的公司股票,当地时间周四AMD和英伟达的股价均创下历史新高。在美股周四的交易中,AMD股价上涨1.56%,达到162.67美元的历史最高收...
日期:01-19
联想s600_联想S600-A2018G2
联想S600是一款性能强大的智能手机,采用了高端配置,迎合了消费者对于移动设备的需求。外观设计方面,联想S600采用了流线型的设计,边角有圆润的处理,机身采用了双面玻璃及金属边框...
日期:05-29
神舟十五号已做好发射前各项准备工作 将创历史首次_神舟五号到神舟十一号的发射时间
来自中国航天科技集团消息,11月27日,神舟十五号发射任务组织全区合练。目前,发射任务各系统已经完成了相关功能检查,并做好发射前的各项准备工作。此次发射窗口期正值寒冬,针对此...
日期:11-29
快手累计处置仿冒账号47.3万个 最新处置欺骗诱导账号4925个「快手账号被处理」
1月6日 消息:昨日晚间,快手发布了关于仿冒账号和欺骗诱导行为的处罚第十四期内容。其中共处置欺骗诱导行为违规账号4925个,累计处置仿冒账号47.3万个。快手表示,近期,平台发现部...
日期:01-06
中国短剧收割欧美市场:主要由华人团队制作
DoNews11月16日消息,日前,中文在线旗下短剧应用 ReelShort 力压 TikTok 冲上美国 iOS 娱乐榜第 1 名。在这个 app 上,国内短剧和网文已经看腻了的豪门恩怨先婚后爱霸道总裁爱上...
日期:11-16
华强北真牛,已实现美版iPhone 14改双卡「美版苹果11改双卡双待」
中关村在线消息:今年的iPhone 14系列其实有一个十分不起眼的“大动作”,那就是在美版iPhone 14系列中取消实体SIM卡卡槽,不过目前已经有华强北商家成功破解了这一问题,成功实现...
日期:10-11