您的位置:首页 > 互联网

麻省理工、Meta开源:无需人工标注,创新文生图模型_麻省文理学院

发布时间:2024-01-09 18:04:02  来源:互联网     背景:

声明:本文来自于微信公众号 AIGC开放社区(ID:AIGCOPEN),作者:AIGC开放社区,授权转载发布。

文生图领域一直面临着一个核心难题,就是有条件图像生成的效果,远超无条件的图像生成。有条件图像生成是指模型在生成图像的过程中,会额外使用类别、文本等辅助信息进行指导,这样可以更好的理解用户的文本意图,生成的图像质量也更高。

而无条件图像生成完全基于模型自己学习的数据分布,难以形成有效的指导,所以,我们经常会有的AI平台生成的图像驴唇不对马嘴,或者图像有重大缺陷。

为了解决这个问题,麻省理工学院和Meta的AI研究人员开发了RCG模型(Representation-Conditioned imageGeneration)。

麻省理工大学研究蚊子报告

RCG是一种创新性的“基于表示条件的图像生成”模型。所谓“表示条件”,就是让模型自己从数据中提取表示来进行指导,而无需任何人工数据标注。所以,RCG能以更小的消耗,生成与有指导模型相媲美的图片。

开源地址:https://github.com/LTH14/rcg

论文地址:https://arxiv.org/abs/2312.03701

从RCG的论文来看,其图片生成流程采用了拟人化思路。先规划出要生成图片的大体轮廓,然后再根据这一构思去绘制图片的细节。

就像我们人类画画一样,先在大脑中构思画作的整体思路,例如,想画一匹马,先想象马的形体;想画一个苹果,先想象个大红色的圆球,然后根据整体“表示”画出图像的细节。

图像编码器

图像编码器的作用是从图像中提取有意义的表示。这些表示在保留图像的语义信息的同时,也要比较简单、易于建模。

目前流行的自监督学习算法主要可以分为两大类:1)基于预训练任务,这类方法会人为设计一个预训练任务,让模型去预测一些伪标签。比如旋转预测任务,让模型预测图像被旋转的角度等。

2)基于对比学习,这类方法会构造正样本和负样本。让模型学会区分和拉远它们在表示空间的距离,代表性算法包括MoCo、SimCLR等。

实验证明,基于对比学习方法,可以获得更加有效的图像表示,因此RCG选择了这种方式。并使用了MoCo v3进行预训练,这是图像分类任务上效果最优的自监督对比学习算法之一。

为了使表示维度可控,RCG使用了带有预测头的Transformer模型。预测头会规划成256维的向量,这样就获得了编码器输出的表示。该表示同时还进行了归一化处理,以符合高斯分布。

表示生成模块

在提取到图像的表示之后,下一步就是对这些表示进行采样。通常,我们希望模型可以捕捉表示空间的分布,具有生成各种新颖表示的能力,从而指导下游的图像生成。

为此,RCG提出了表示扩散模型RDM。它使用全连接网络作为主干,包含数个残差块。每个块里面包括激活函数、线性层等。

RDM模块训练时,采用了DDIM算法。即先将真实图像表示加入高斯噪声,让RDM去除噪并重构原始表示;生成时,从完全噪声表示出发,逐步采样清晰的表示。

苹果最强芯片m3

RDM模块的参数和计算量很小,所以即使增加块数和宽度,也不会带来太大的额外负担。这样我们可以充分发掘表示空间的丰富信息,指导下游生成。

像素生成器

提取表示并对其建模之后,最后一步就是根据表示来生成图像像素。RCG中的像素生成器可以使用任意的条件图像生成模型,只需要将原有的条件(比如类别标签)替换为RDM生成的表示即可。

训练时,MAGE接收带有遮蔽(Mask)的图像作为输入,其中带X的是被遮蔽的,同时也输入对应图像的表示,然后学习重构被遮蔽的内容。

为了验证RCG模型的效果,研究团队基于ImageNet测试平台中的256×256数据集进行了实验。

结果显示,RCG的FID分数为3.56和IS的253.4,超过了之前最好的无条件生成模型MAGE的结果,与当前状态最好的有条件模型CDM差不多。


返回网站首页

本文评论
185帅哥妖娆表演只蹦迪不带货?椰树直播引热议 网友感慨太会玩_椰树美女
椰树的直播间又又又上热搜了,之前是美女,现在是帅哥们,还是会搞事情。坚果教育科技5月27日,有网友发现,椰树集团之前带货擦边被罚款,现在它的某平台店铺中并没有商品,只有男女模特...
日期:05-27
不看手机你能过吗?仰头玩手机可预防颈椎病上热搜:消息不实
类似的谣言相信大家都听过了吧,比如仰头玩手机可以预防颈椎病,这到底是真的吗?事实证明,该消息不实,仰头玩手机同样会伤颈椎,还可能会加重对颈椎的伤害。相关人士表示,事实上,长时间...
日期:10-06
芯片设备供应商龙头上市公司有「受益于AI热潮,芯片制造设备供应商 Lam Research 收入超预期」
7月27日 消息:芯片制造设备供应商 Lam Research (LRCX.O)预测季度收入高于华尔街预期,因为半导体制造商争先恐后地满足人工智能 (AI) 技术日益普及所推动的需求激增。苹果14pro...
日期:07-28
百度再发大招!承载春晚亿万流量的核心技术BFE转发引擎开源了!
  一晃眼又到了年底,2020年的春节来得格外早,网友们都摩拳擦掌,准备开启鼠年春晚的吐槽模式,也有许多念旧的网友开始怀念起今年年初春晚的那一场红包狂欢。   作为近几年...
日期:04-18
苹果的老对头、安卓手机中的“机皇”,为什么在国内卖不出去呢?
众所周知,现在的手机市场由iOS和安卓瓜分天下。由于iOS的特殊性由iPhone独占,最旗舰的iOS手机就是每年的新款iPhone,例如今年的iPhone 14 Pro Max。反观安卓开放的特性,除了苹果...
日期:08-29
元宇宙产业委潘志庚:从虚拟现实到元宇宙(元宇宙产业委员会)
2022 年7月 4 日,由南京信息工程大学和中国移动通信联合会元宇宙产业委员会主办,南京信息工程大学人工智能学院(未来技术学院)和杭州数字经济联合会元宇宙专业委员会承办,央链直...
日期:08-01
国产武侠游戏《燕云十六声》封测在即:首张大地图“清河”亮相
近日,国产开放世界武侠游戏《燕云十六声》官方透露,正在筹备一场小规模的邀请制技术性封闭测试。目前,官方尚未公布此次测试的具体时间与名额的筛选方法。据悉,此次测试将围绕游...
日期:11-30
有没有解释代码的软件「代码解释器等于GPT-4.5!不训练GPT-5,OpenAI依然向AGI狂飙」
var cid = "1547961".toString(); var czPay = localStorage.getItem('czpay'); if(czPay != null){ if(czPay.indexOf(cid)!=-1){ var pids = czPay.spli...
日期:08-02
第三届元宇宙共享大会 |共探链改积分Web3.0趋势与未来
2023 年新一轮科技革命再起狂澜, ChatGPT带来的惊艳还未消散, 元宇宙产业已然开启了纪元之门。第三届元宇宙共享大会暨Web3. 0 链改——绿色积分资产化实践项目签约发布会及汇...
日期:10-18
世界富豪榜马斯克「《福布斯》年度富豪榜:马斯克失首富 贝佐斯最惨」
凤凰网科技讯 北京时间4月5日消息,2022年对科技公司来说是艰难的一年,股价的暴跌也给这些公司创始人的财富造成了巨大损失。《福布斯》周二发布了2023年度全球富豪排行榜,确定...
日期:04-05
亚马逊宣布以17亿美元现金收购扫地机器人公司iRobot(亚马逊扫地机器人案判决)
三星a51手机4g版京东超越天猫营业额百度和泰国旅游局达成合作 共同搭建线上营销平台协议诺基亚LUMIA一加7t pro首发价amd最新市场占有率支付宝查看2019年账单   讯 北京时...
日期:08-06
高效算力之困:算存运如何协同?_算力机和存储机
高效算力之困:算存运如何协同? 通信产业网|2023-11-02 12:49:08作者:胡媛来源:通信产业网【通信产业网讯】(记者 胡媛)当前,大模型等人工智能技术的发展,引发算力需求爆发式增长,算力...
日期:11-06
为什么薇娅、小红书、罗永浩都在推荐360可视门铃?
  4月10日晚8点,罗永浩在抖音开启了第二次带货直播。继第一次直播达成超1.1亿元交易额之后,这一次,老罗又在直播中展示了十余款抢手好货。在这诸多商品之中,360可视门铃凭借...
日期:03-28
3c数码测评「UIBI携3C数码产品惊艳亮相数码科技嘉年华!」
2023年9月23日,由充电头网 x 我爱音频网主办的2023数码科技嘉年华(深圳站)在深圳市深圳湾科技生态园8栋4楼(创新广场发布中心)成功举办。本次嘉年华以3C数码配件为主角,汇集广大...
日期:09-25
iphone11promax更新ios15吗「大调整!iPhone 15 Pro Max或改名为iPhone 15 Ultra」
【手机中国新闻】前不久,苹果发布了最新一代iPhone 14系列,目前新机已经开售,其Pro系列凭借“灵动岛”的设计俘获了一众果粉的心而大卖。从iPhone 11到14系列,苹果手机的Pro Max...
日期:09-22
中国移动发布全球首个“神机”网络弹性服务「中国移动在搞啥网络活动」
6月29日下午,算力网络技术与产业大会在上海正式拉开帷幕。会上,中国移动发布全球首个“神机”网络弹性服务,解决了超算智算在处理科研和商业化计算时遇到的数据传输成本和效率...
日期:06-30
Intel显卡被曝降频:闪电搞定_intel核显闪屏
日前有玩家和媒体发现,Intel Arc A770 16GB限量版显卡存在降频问题,显存实际频率并非标称的17.5GHz,而是16GHz。具体原因不详,不确认是软件识别错误,还是真的缩水了。netflix排行...
日期:11-04
小度确认将发布智能手机:消息属实,敬请期待_了解小度智能手机
5月8日消息,今日有消息称,百度旗下小度将进军智能手机市场,并计划在5月下旬发布旗下第一款智能手机。沃尔沃汽车体验中心小米青春版性价比高吗对此,小度相关负责人确认:消息属实,...
日期:05-08
中国成功发射遥感卫星33号「我国成功发射遥感三十三号03星:黑夜起飞画面超震撼」
快科技9月7日消息,据中国航天科技集团 ”官微,今日2时14分,我国在酒泉卫星发射中心使用长征四号丙运载火箭,成功将遥感三十三号03星发射升空,卫星顺利进入预定轨道,发射任务获得圆...
日期:09-07
规范引领 共谋数智丨科远主编“化工行业智改数转实施指南”正式发布
规范引领 共谋数智丨科远主编“化工行业智改数转实施指南”正式发布 iphone显示电池电量百分比ios14...
日期:05-26