您的位置:首页 > 媒体评论

CMU朱俊彦团队推出首个AI自动匹配排名系统

发布时间:2022-10-11 02:11:09  来源:互联网     背景:

原标题:AI 生成模型五花八门,谁好谁坏?CMU 朱俊彦团队推出首个自动匹配排名系统

作者 | 李梅

编辑 | 陈彩娴

最近的生成式 AI 可谓十分火爆,新出的预训练图像生成模型多到让人目不暇接。无论是肖像、风景,还是卡通漫画、特定艺术家风格元素等等,每个模型都有它擅长生成的内容。

这么多模型里面,如何快速找到一个能满足自己创作欲的最佳模型呢?

近日,卡内基梅隆大学的助理教授朱俊彦等人首次提出了基于内容的模型搜索算法,让你能够一键搜索出最匹配的深度图像生成模型。

论文地址:https://arxiv.org/pdf/2210.03116.pdf

在团队基于这套模型搜索算开发的在线模型共享和搜索平台 Modelverse 上,你可以输入文本、图像、草图和给定模型,来搜索出最匹配或相似的相关模型。

Modelverse 平台地址:https://modelverse.cs.cmu.edu/

图注:输入文本(如“非洲动物”)、图像(如一张风景图)、草图(如一只站立的猫的草图)或者一个给定模型,输出排名靠前的相关模型(第二行、第三行)

比如,输入文本“face”,得到结果如下:

输入一只猫咪图像:输入一匹马的草图:

1

基于内容的模型搜索

和传统的多媒体搜索一样,模型搜索能够帮助用户找到最适合其特定需求的模型。但基于内容的模型搜索任务有其特殊难点:

印度显示器中国出口

判断模型是否可以生成特定图像,这是一个比较难计算的问题,而且很多深度生成模型并没有提供有效方法来估计密度,其本身也不支持评估跨模态相似性。而蒙特卡洛这种基于抽样的方法又会使模型搜索过程变得非常缓慢。

为此,朱俊彦团队提出了一种新的模型搜索系统。

每个生成模型都会产生一个图像分布,所以作者将搜索问题处理为优化,以最大化在给定模型的情况下生成与查询匹配的概率。如下图所示,该系统由预缓存阶段(a,b)和推理阶段(c)组成。

图注:模型搜索方法概览

给定一组模型,(a)首先为每个模型生成 50K 样本;(b) 然后将图像编码为图像特征并计算每个模型的一阶和二阶特征统计。统计数据缓存在系统中以提高效率;(c) 在推理阶段,支持不同模态的查询,包括图像、草图、文本描述、另一个生成模型或这些查询类型的组合。作者在这里引入近似值,查询被编码为特征向量,通过评估查询特征与每个模型统计数据之间的相似性,来检索具有最佳相似性度量的模型。

2

模型搜索效果

作者对算法进行评估,对 133 个深度生成模型(包括 GAN、扩散模型和自回归模型)进行了消融实验分析。与蒙特卡洛基线相比,该方法可以实现更高效的搜索,速度在 0.08 毫秒内,提升 5 倍,同时还能保持高精度。

通过对比模型检索结果,我们也可以大致了解针对不同查询输入,哪些模型能生成质量更高的图像。比如下图展示了模型检索的结果对比。

图注:模型检索结果示例

最上面一行是图像查询,输入静物画,检索相关艺术风格的模型,得到排名第一的 StyleGAN2 模型和排名最后的 Vision-aided GAN 模型。中间行是草图查询,输入马和教堂的草图,得到 ADM、ProGAN 等模型。最下面一行是文本查询,输入“戴眼镜的人”和“说话的鸟”,分别检索得出排名第一的 GANSketch 模型和 Self-Distilled GAN 模型。

作者还发现,不同网络特征空间的模型性能存在差异。如下图所示,在输入图像查询时,结果显示三个网络 CLIP、DINO 和 Inception 都具有相似的性能;而在输入草图查询时,CLIP 效果明显更好,而 DINO 和 Inception 则不太适合给定查询,它们在艺术风格的模型上表现更好。

图注:不同网络特征空间中基于图像和草图的模型检索比较

另外,这项工作所提出的模型搜索算法还能支持多种应用,包括多模态用户查询、相似模型查询、真实图像重构和编辑等。

例如多模态查询可以帮助细化模型搜索,在只有“Nicolas Cage”的图像时,只能检索到人脸模型;但当同时使用“Nicolas Cage”和“dog”作为输入时,就可以检索到能生成“Nicolas Cage dog”图像的 StyleGAN-NADA 模型。(如下图)

海信中央空调空气净化功能

图注:多模态用户查询

当输入是一个人脸模型时,可以检索到更多的人脸生成模型,并且类别保持相似。(如下图)

图注:相似模型查询

给定真实人脸的查询图像,使用排名较高的模型能获得更准确的图像重建。下图是使用不同排名模型的 CelebA-HQ 和 LSUN Church 图像的图像逆映射示例。

图注:将真实图像投射到检索到的 StyleGAN2 模型。

在对真实图像进行编辑的任务中,不同模型的表现也有高低之分。下图中,使用基于图像的模型检索算法排名第一的模型来对真实图像进行逆映射,然后使用 GANspace 进行编辑,从而将浮世绘图像中的皱眉人脸变成笑脸。

图注:编辑真实图像

这项研究已经证明了模型搜索的可行性,而文本、音频或其他内容生成的模型搜索还有很大的研究空间。

但目前来看,这项工作所提出的方法还有一定的局限性。例如,在查询特定的草图时,有时会匹配出抽象形状的模型;而有时进行多模态查询时,只能检索到单一的模型,系统可能会很难处理像一只狗的图像 + “大象”这样的多模态查询。(如下图)

图注:失败案例

另外,在其模型搜索平台上,对检索出的模型列表并未根据其效果进行自动排序,如在生成图像的分辨率、逼真度、匹配度等方面对不同模型进行评估并给出排名,这样可更便于用户检索,也能帮助用户更好地了解目前生成模型的优劣情况,期待这方面的后续工作。

买的面条能吃吗


返回网站首页

本文评论
华为“不造车”的承诺,快到期了「华为官宣“造车”,然而留给华为的时间只有7个半月了」
作者 | 飔痕导语:华为智选模式已经初获成功。接下来,华为会否撕下最后一层窗户纸、开始全面造车?从供应商,到全面主导近日,各大车企纷纷公布9月交付数据。引发市场广泛关注的,除了...
日期:10-24
5g高可靠低时延_5G低时延对手机用户影响甚微 优质4G也能实现良好体验
“高速率、低时延、广连接”在5G商用初期一直被用作宣传口号,只要稍有科技常识,就能明了其中的含义。当年,甚至有FCC委员表示可以把5G网络的广告词设计为“吃鸡网络”。而如果...
日期:08-26
到底踩没踩刹车,特斯拉和驾驶员家属谁在说谎?_特斯拉的刹车问题到底谁能管
近日,一辆特斯拉失控造成2死3伤的严重事故,再度引发了全网对于特斯拉是否存在“刹车失灵”这个老问题的质疑。目前,司机家属坚称是“刹车失灵”,而特斯拉官方则表示“没有踩刹车...
日期:12-03
英伟达挖矿史:聚集最优秀的工程师 然后研究挖比特币「英特尔神经计算棒挖矿」
原标题:英伟达挖矿史:“把这一代最优秀的工程师聚在一起,然后研究挖比特币”小米手环7什么时候上线如果问各大科技公司,英伟达这家公司最让人羡慕的地方是什么,“不受周期限制”...
日期:08-30
为什么要用国产替代进口_国产替代是一定要走的路
当灰犀牛来临的时候,如何寻找新的增长机会是企业家们必须回答的命题,尤其是在不确定性日益常态的时代。近日,美国商务部工业安全局(BIS)发布了最新管制新规,靶向明确,力度空前,直指...
日期:10-30
豆瓣9.0 这部年度科幻神作值得《三体》们学习_与三体媲美的科幻
摩托罗拉razr可折叠智能手机意识传云端康福瑞纸尿裤价格烧脑硬科幻iphone 13 pro 和pro max的区别今天你可能错过的大新闻...
日期:10-31
越涨越亏,怪兽充电玩不起“共享游戏”_怪兽充电涨价
作者|路世明编辑|大 风12月20日,“共享充电宝第一股”怪兽充电发布了2022年第三季度财报。财报显示,怪兽充电第三季度营收8.15亿元,净亏损9580万元。如果从2021年第三季度开始算...
日期:12-30
一个钉钉怎么面对“一千个哈姆雷特”
距离钉钉上一次提出大客户+商业化,刚好过了半年。在这个节点上,钉钉公布了一份阶段性成绩单。近两年,钉钉上 100 万人以上、10 万人以上、1 万人以上的企业组织数均增长一倍左...
日期:09-24
偌大的特斯拉,容不下一颗小雷达?「特斯拉放弃毫米波雷达」
虽然特斯拉 AI Day 才举办了两届,但由于干货太多,技术太过硬核,也被业内称为自动驾驶领域的春晚。去年 AI Day 的关键词还是 BEV、Transfomer 和 Hydranet,今年就变成了 Occupan...
日期:10-19
谈谈芯片制裁_美国对芯片行业制裁结局
作者:曾航这几天因为美国新一轮对中国的科技制裁,导致A股半导体和科技板块出现暴跌,一时间各种消息满天飞,产业界人心惶惶。这次的制裁和打击力度是空前的,已经有很多文章展开分...
日期:10-14
美国大厂纷纷裁员,互联网的故事要结束了吗?「大公司裁员」
【文/观察者网专栏作者 冷哲】几个月前马斯克宣称要收购推特开始,就好像推倒了第一块多米诺骨牌,后续的发展变得愈发剧烈了。最近一两周,推特的大裁员才刚刚落幕,Facebook的大裁...
日期:11-28
小米新推出“小米耳机”App:耳机设置终于脱离小爱同学「设置小米耳机的app」
  一直以来,小米旗下TWS耳机都因为必须依赖小爱同学进行固件升级、设置调整而备受诟病。法拉第未来FF91上市  近日,小米在应用商店上架了新的官方App“小米耳机”,让耳机的...
日期:08-13
马斯克宣布已退出脸书和推特_把警告当耳边风 马斯克被爆强推付费认证导致推特失败
凤凰网科技讯 北京时间11月15日消息,据科技新闻网站Platformer报道,就在埃隆·马斯克(Elon Musk)准备推出售价8美元的蓝V付费认证服务Twitter Blue之前,推特内部团队已经警告他...
日期:11-19
iphone12支持27w快充吗_iPhone 14 Plus最高支持28W快充?最新充电测试结果出炉
10月7日,iPhone 14 Plus正式开售,不过开售当日就在市场上遇冷,罕见地首发即破发。但是作为苹果今年新推出的iPhone产品线,iPhone 14 Plus还是有着不少亮点的,最近也有相关评测机...
日期:10-12
“先涨价再降价”老套路为何难禁止「先涨价再降价问题」
apple music服务器作者/张涛漫画/陈彬10月24日晚8点,各大电商平台的“双十一”预售正式开启,今年“双十一”大促进入实质性阶段。近日有网友发现某平台在售的手机在悄然涨价。...
日期:11-06
心脏基因突变能治好吗_直接改基因,真能永久预防心脏病吗?
作者 | 陈广晶编辑 | 陈伊凡头图 | 视觉中国人类想一劳永逸“铲除”致命疾病的尝试又受挫了。辛选直播带货排名就在前不久,号称可以“一针永久预防心脏病”的基因编辑药物VER...
日期:11-28
51岁女董事长再造中航锂电 百亿融资冲刺港股第二大IPO_中航锂电股权投资
2022年已经过去了近四分之三,这一年可以说是笔者出生以来经历和见识到环境最复杂的年份之一,无论是自然环境还是宏观环境,亦或是全球的政治环境,而这些环境叠加在一起共同指向了...
日期:09-21
将切入3nm生产,台积电冲破重重障碍在美设厂究竟图什么?_台积电制造工艺
集微网报道,当地时间12月6日,台积电美国亚利桑那州晶圆厂举行了首批机台设备到厂典礼,台积电邀请了包含客户、供应商、学术界和政府代表在内嘉宾,一同庆祝这一重要里程碑。此前...
日期:12-10
半导体材料的公司_半导体行业离不开这家材料厂商
提到默克,可能大家熟知的是其在医疗健康领域和生命科学方面所做的贡献,这家成立于1668年,经历了三个多世纪的企业,如今正在半导体领域大放异彩。默克发力半导体领域的“武器”是...
日期:12-13
火狐浏览器 Firefox 无障碍服务大提速:加载大型文档从 175 秒降低到 15 秒
  12 月 26 日消息,火狐浏览器 Firefox 的无障碍服务即将获得大提速。屏幕阅读等无障碍服务可以帮助用户了解页面内容,在 Firefox 111/112 版本更新中将会进一步改善无障...
日期:12-27