您的位置:首页 > 互联网

耗资数百万,六年磨一剑!上交开源首创图像合成神器libcom,下载量破万

发布时间:2024-10-12 21:55:30  来源:互联网     背景:

声明:本文来自于微信公众号 新智元,作者:新智元,授权转载发布。

【新智元导读】研发6年,耗资数百万,六届学霸接力,上交牛力团队首创的图像合成工具箱libcom,论文、代码、数据集全开源。团队欢迎各位大佬共铸libcom,贡献突出者可享冠名权。

在AIGC 的浪潮中,对已有图片做编辑的图像编辑(image editing)技术受到了越来越多的关注。图像编辑(image editing)的原子操作包括增、删、改。

  • 增是指在图像中添加元素,该研究方向叫做图像合成(image composition)

  • 删是指从图像中擦除元素,该研究方向叫做图像填充(image inpainting)

  • 改是指改变图像中元素的属性,该研究方向叫做属性编辑(attribute manipulation)

其余复杂的图像编辑操作皆可转化为增、 删、改这三个原子操作的组合,通过按照一定顺序执行这些原子操作完成。

因此,图像合成(image composition)在图像编辑的版图中三分天下居其一,在虚拟现实、艺术创作、电商广告、数据增广等领域有着广泛应用。

图像合成(image composition)的通常用法是把一个前景物体插入到一张背景图片中,得到一张合成图。

但是通过简单的剪切粘贴得到的合成图会存在诸多问题,皆可视为前景和背景之间的不一致性,包括外观不一致性、几何不一致性、语义不一致性。三种不一致性可进一步分解成若干子问题(边界、光照、阴影、放置、遮挡、视角等等)。

为了解决这些子问题,很多子任务(图像融合、图像和谐化、阴影生成、物体放置等等)被相继提出,用于解决一个或多个子问题。

5400平方米等于多少平方千米?

在图像合成中,不一致性(inconsistency)、子问题(issue)、子任务(sub-task)三者之间的关系如下图所示。

上述这些子任务可以串行(sequential pipeline)或者并行(parallel pipeline)执行,以解决前景和背景之间的不一致性,得到高质量合成图。

串行流程和并行流程如下图所示,绿勾和红叉表示是否执行该子任务。

给定一对背景图片和前景物体,串行流程先在背景中寻找前景物体的合理放置,通过图像混合解决边界不自然的问题,通过图像和谐化解决前背景光照不和谐的问题,通过阴影生成为前景物体在背景上生成合理的阴影。而并行流程在一个模型中同时执行多个子任务,直接输出最终的合成图。

并行流程也叫做生成式图像合成,近两年随着扩散模型的爆火而进入大众的视野。

在这一领域,上海交通大学牛力团队从2018年底就开始从事图像合成(image composition)领域的研究,从数据(10+原创数据集)到模型(30+原创模型)、论文(20+已发表论文),再到工具箱(libcom),历时六年,耗资数百万,由六届学生接力完成。

所有数据集的每张图片都经过2~3人检查,以严格保证数据集的质量。所有模型的代码都经过2~3人检查,以确保没有严重的bug(如果有严重的bug请尽快打脸)。

实验室项目主页:github.com/bcmi

2023年底,团队推出了尽量无需训练微调、对任意图片开箱即用的图像合成工具箱libcom,该工具箱的形式也是首创的,体现了他们对image composition领域的理解。

截至2024年10月,libcom已经下载安装1.2万次。

工具箱地址:github.com/bcmi/libcom

因为图像合成旨在融合不同的图片元素,所以libcom的logo采用了半人马的形象,即人和马的融合,并添加了装饰性的蓝圈和黄圈的融合。由于蓝色和黄色的过渡色是绿色,因此半人马系上了一条绿色的腰带。

Libcom集成了图像合成的十几项功能,对图像合成实现全方位覆盖,每个功能选择了一到两个简单有效的方法。

经过近一年的迭代,大多数功能的效果还凑合。并且,每一个功能都有对应的仓库,仓库里有训练代码。

如果你发现某项功能在你的数据集上表现欠佳,很有可能是数据差异导致,用你收集的训练数据微调模型,替换掉原来的checkpoint即可。

和libcom一同打包赠送的还有awesome-image-composition(汇总了该领域的论文、代码、数据集),在线demo(很久没更新了,不是最新模型)、以及一篇写了四年的survey(一年一更)。

十二大功能全解

接下来依次介绍libcom的十几项功能,涵盖了图像合成的方方面面:

1.get_composite_image

通过剪切粘贴、alpha融合和泊松融合混合前景背景。这些是最简单的传统图像融合方法。

2.OPAScoreModel

输入合成图和前景掩码,判断前景物体的放置(位置、大小)是否合理。输出的分数介于[0,1]之间,1表示合理,0表示不合理。

左边的合成图分数为1,右边的合成图分数为0

3.FOPAHeatMapModel

输入一对背景图片和前景物体,输出该物体按照不同尺寸放在背景图片不同位置得到的合成图的合理性分数。

假设有K个离散的前景物体尺寸,背景图片大小为H*W, 则输出H*W*K的热力图。

热力图上的每个像素对应一个放置的合理性分数,因此根据热力图可以获取合理的前景物体放置框。

单个前景物体尺寸的热力图以及根据热力图得到的前景物体放置框

4.color_transfer

传统的颜色迁移方法,用于将背景的颜色迁移到前景,适用于简单场景的图像和谐化。

合成图和颜色迁移后的结果

5.ImageHarmonizationModel

输入合成图和前景掩码,图像和谐化模型调整前景的光照使其与背景和谐,输出和谐化结果。

6.PainterlyHarmonizationModel

艺术图像和谐化与图像和谐化类似,区别在于背景是艺术图片。

输入合成图和前景掩码,艺术图像和谐化模型调整前景的风格(颜色、纹理、笔触等)使其与背景一致,输出和谐化结果。

7.HarmonyScoreModel

输入合成图和前景掩码,判断前景和背景的光照是否匹配,输出前景与背景的和谐化分数。分数介于[0,1]之间,1表示和谐,0表示不和谐。

左边的合成图分数为0.25,右边的合成图分数为0.72

8.InharmoniousLocalizationModel

输入一张图片,输出该图片不和谐区域的掩码。

合成图和模型预测的不和谐区域

9.FOSScoreModel

输入一张合成图,预测前景和背景在几何和语义上的适配性分数,包括前景和背景的透视角度是否一致、前景物体的语义上下文是否合理等等。输出的适配性分数介于[0,1]之间,1表示适配,0表示不适配。

10.ShadowGenerationModel

输入一张合成图和前景掩码,为前景物体在背景上生成合理的阴影。该功能不是很稳定,通常随机生成5张会有1~2张的阴影形状较好。

随机采样5次生成的结果

11.ControlComModel

输入一对背景图片和前景物体,把前景物体插入背景图片指定位置(黄色边界框),保持前景物体的姿态不变,做图像融合或者图像和谐化。两者的区别在于图像和谐化需要进一步调整前景物体的光照使其与背景和谐。

12.MureObjectStitchModel

输入一对背景图片和前景物体(支持多张参考图),把前景物体插入背景图片指定位置(黄色边界框),调整前景物体的姿态和光照,得到合理的合成图。

模型对于细节简单的物体和常见物体效果较好。对于细节复杂的物体,建议用前景物体的5~10张图片花10分钟微调模型,细节保留能力会有大幅提升。

同时,团队还提供了微调模型的代码,微调模型之后替换原来的checkpoint即可。

未来展望

总结来说,Libcom还有很多不足,还有很多事情要做,比如数据集扩充、模型调优、添加新功能、支持任意分辨率、工程优化、推理加速、跨平台迁移、版本升级迭代、用户界面等等。

团队表示,欢迎对图像合成(image composition)感兴趣的大佬们指导工作,共铸libcom,提供资金、数据、人力、技术等方面的支持,并加入贡献者名单。如果贡献特别突出,可以享有冠名权(比如JackLibcom, PonyLibcom)。


返回网站首页

本文评论
马路上翻车 把车开到“四轮朝天”要扣分罚款吗?案例来了_路上车翻了怎么办
近日,在杭金衢高速衢向兰溪服务区内,一男子因为分心驾驶把车开翻了,汽车直接来了个四轮朝天”。有线电视网络双向改造方案监控视频显示,这辆黑色SUV从停车位启动,准备驶离服务区,...
日期:08-25
三星s20长焦镜头参数「三星S23 FE手机曝光 长焦三摄 直屏」
外媒今天曝光了三星Galaxy S23 FE真机照片,从照片来看基本和S23系列标准版机型变化不大,新机沿用了前代的外观设计,后盖采用竖排三摄方案,边角十分圆润,预计手感比较舒适。搭载三...
日期:06-29
上半年国产手机出货量下降超25% 年轻人不爱换手机了?(2018年3月国产手机出货量)
文/记者 温婧 ; ; ; ;近日有数据显示,今年上半年,国内市场手机总体出货量同比下降21.7%,国产手机出货量下降25.9%。还有数据显示,年轻人换机周期拉长至31个月。年轻人为什么不爱...
日期:08-17
正面挑战“”Adobe:微软推出免费P图软件Designer_adobe p图
如果提到在图形图像设计领域有什么无法绕过的公司的话,Adobe绝对榜上有名,该公司凭借PhotoShop等知名图像处理软件,在行业内可谓是风头无两。Adobe全家桶但近日,微软宣布将推出...
日期:10-28
赚钱形式多样 乐淘网络联盟成国内中小站长首选(乐淘淘怎么赚钱)
  许多草根站长在经营网站的过程中,难免会面临这样的困惑。网络赚钱的花样越来越多,究竟哪一种才是最适合自己的?如何在付出同等时间情况下保证收益最大化。在多种选择面前...
日期:07-27
搭载骁龙8 满血处理器!一加Ace 2仅2799元「一加八t骁龙」
近期想买个性价比高的手机的小伙伴可以关注一下一加Ace 2,现在一加Ace 2仅2799元。搭载满血版第一代骁龙8 处理器,最高16GB LPDDR5X超大内存,5177mm?超大面积的八通道全贯穿VC,...
日期:03-28
边框仅为“1毫米”,小米14有望再创业界“极值”「小米14屏幕尺寸」
随着曲面屏手机发展势头越来越好,不少业内人士认为手机厂商在常规屏幕边框的打磨即将止步于此,但最新关于小米14数字旗舰的爆料消息,带来了意外惊喜,小米14有望拥有仅为1毫米的...
日期:06-19
idc全球pc市场份额「IDC:三季度全球PC发货量总计7420万台 同比下降15%」
10月10日消息:根据国际数据公司(IDC)全球个人计算设备季度追踪的初步结果,2022第三季度,全球PC发货量总计7420万台,传统PC市场继续下滑。需求降温和供应不平衡导致同比收缩15.0%...
日期:10-14
抖音好物年货节设置跨消费券等玩法 新增搜索免单_抖音团购活动配置商品品类
12月20日 消息:12月19日下午,抖音好物年货节招商大会正式召开。在本次年货节,内容场和货架场的核心玩法,都有新增、升级。多元玩法将围绕货架场、内容场、财经及千川三个领域开...
日期:12-20
分析师回应iPhone 16部分机型印度制造:高端型号将继续在中国生产_苹果手机印度制造
快科技8月5日消息,此前有媒体报道称,苹果今年将在印度组装iPhone 16系列高端型号iPhone 16 Pro和iPhone 16 Pro Max。男生体育考试对此,分析师Dan Ives指出,我认为印度可以生产...
日期:08-06
马丽出演电影「193.16亿元!马丽主演票房进入中国影史前五」
快科技3月4日消息,据猫眼专业版数据,演员马丽主演电影《第二十条》正在热映,助马丽主演电影累计票房破193.16亿,成为中国影史影人主演电影票房榜第五名。主演票房前四名依次为吴...
日期:03-04
北京铁塔公司全力开展暴雪天气通信保障工作_铁塔汛期应急保障预案
北京铁塔公司全力开展暴雪天气通信保障工作 通信产业网|2023-12-13 16:54:07作者:通文来源:通信产业网【通信产业网讯】12月12日22时00分,北京市气象台升级发布暴雪橙色预警信...
日期:12-15
谷歌云游戏平台Staida突然“跑路”:厂商紧急抢救玩家数据「谷歌Stadia云游戏」
就在近日,云游戏行业的先驱谷歌突然宣布,将在2023年1月18日正式关停旗下云游戏服务平台Stadia。华为mate30刘海屏这一毫无征兆的消息传出之后,玩家与开发者均是一片哗然,大量原...
日期:10-03
中国空间站"太空菜园"画面公开!一片欣欣向荣_中国空间站太空行走视频
太空种菜,挑战无限!中国载人航天工程最新消息显示,神舟十八号飞船的宇航员叶光富、李聪、李广苏已在太空驻留逾4个月。小米全面屏专利从公开的画面中可见,宇航员在空间站内开展...
日期:10-12
暗黑破坏神4游戏视频「《暗黑破坏神4》将于6月2日抢先体验:PC、主机全平台同步」
快科技5月5日消息,《暗黑破坏神4》的总管Rod Fergusson最新发文确认,本作将于北京时间6月2日早7点开启抢先体验,而正式开服时间则是北京时间6月6日早7点,全平台时间保持一致。据...
日期:05-06
李彦宏刘强东魏建军等大佬扎堆直播,都是雷军逼的?_李彦宏持有京东多少股份
声明:本文来自微信公众号“三言财经”(ID:sycaijing),作者:三言,授权转载发布。最近一段时间,诸多大佬纷纷下场开直播。仿佛直播成了一个新的战场,不赶紧开直播就会贻误战机。以前,...
日期:04-16
可“捅破天”的手表!华为WATCH 4系列官宣「华为手表新款watch4」
快科技5月9日消息,华为今日官宣了智能穿戴新品华为WATCH4系列。redmi11pro可以用几年谷歌眼镜能做什么从宣传海报可知,华为WATCH4系列继承了圆形设计,配备旋转表冠,整体外形类似...
日期:05-09
量子位MEET 2025智能未来大会启动!年度评选征集ing_量子位meet 2021
以智变千行,慧及百业为主题组委会 发自 凹非寺量子位 | 公众号 QbitAI2024 年,智能技术在千行百业之中推动着深刻变革。场景不断拓展,行业不断渗透,这一年来我们见证了各种新兴...
日期:09-24
信通院李珊:分类施策、梯次导入,加速5G应用规模化发展
通信世界网消息(CWW)5G发牌4周年,我国5G网络建设和应用发展成绩斐然,如何实现5G应用规模化发展成为下一步的重点。“5G应用规模化需要通过梯次导入的方式,不断推进、不断深入,向纵...
日期:06-08
realme真我手机「真我数字系列重回国内!realme 10系列官宣」
今日,realme真我手机宣布,真我10系列新机即将登场,该系列此前一直在海外发布,这次重回国内市场。小狗吸尘器新品即将上市boss直聘赚钱吗官方公布的海报暗示,真我10系列将配备曲面...
日期:11-07