您的位置:首页 > 互联网

字节复旦团队提出meta prompts 扩散模型图像理解力刷新SOTA

发布时间:2024-01-17 02:25:54  来源:互联网     背景:

1月16日 消息:过去一年扩散模型风头正劲,彻底改变了文生图领域!那么,扩散模型能否处理视觉感知任务?字节跳动和复旦大学技术团队在最新研究中提出了一个简单有效的方案。扩散模型在生成高清晰度图像方面显示出了卓越的能力,这一成就得益于其在大规模图像-文本对上的预训练。团队提出了一种利用扩散模型处理视觉感知任务的方案,通过引入可学习的元提示到预训练的扩散模型中,以提取适合特定感知任务的特征。

项目地址:https://github.com/fudan-zvg/meta-prompts

视觉感知任务的多样性超出了文本驱动方法的范畴,因此技术团队提出了一种内部的可学习元提示,称为meta prompts,这些meta prompts被集成到扩散模型中,以适应感知任务。Meta prompts可以根据目标任务和数据集进行端到端的训练,从而为去噪UNet建立特别定制的适应条件。这些meta prompts包含丰富的、适应于特定任务的语义信息,有效展示了对类别的识别能力、对深度的感知能力以及关键点的感知。

新能源汽车在中国市场中的接受度与日俱增

扩散模型通过其固有的设计,在去噪UNet中生成多尺度特征,但视觉感知任务通常需要理解既包括低级细节的又包括高级语义解释的内容。为了解决这一问题,技术团队引入了meta prompts作为特征重组的过滤器,将UNet的多尺度特征与meta prompts的任务适应性结合起来,并将经过meta prompts过滤的特征输入到特定任务的解码器中,从而提高模型在视觉识别任务中的性能。

技术团队还为视觉感知任务设计了一个简单的recurrent refinement过程,通过将UNet的输出特征循环输入到UNet中,并引入可学习的独特的timestep embeddings,以调制UNet的参数,从而优化特征提取过程,增强模型在视觉感知任务中的性能。实验结果显示,该方法在多个感知任务数据集上都取得了最优。

苹果15为啥采用a17

该研究提出的方法和技术有广泛的应用前景,可以在自动驾驶、医学影像分析、机器人视觉系统等领域中提升视觉感知任务的性能。此外,该方法还可以在艺术创作、虚拟现实、增强现实等领域中用于提高图像和视频的质量和互动性。随着技术的进步,这些方法可能会进一步完善。

iphone11pro 摄像头抖动滋滋响


返回网站首页

本文评论
三年内实现量产!人形机器人终于来了?_人形机器人设计图
在科幻电影几十年的发展历程中,有一类角色给影迷们留下了非常深刻的印象——TA也许是人类的好伙伴,也许是恶名昭彰的反派,也可能是可爱逗趣的配角。TA是《异形》中的艾什、《普...
日期:11-07
已有28年历史!Windows 11新年首更正式移除写字板应用_windows10写字板作用
快科技1月4日消息,今天,微软发布了2024年的首个Windows 11系统更新,Canary频道版本升至了Build 26020,最重要的改动就是移除了写字板应用。微软在更新日志中表示,自本预览版开始,...
日期:01-04
315曝光苦情戏直播局中局 剧本剧情吸引老年人_苦情戏视频
在最近的3·15晚会中,该节目收到了很多消费者投诉。令人不安的是,很多主播都表现出一副正义凛然的样子,声称能够解决这些纠纷。然而,他们无一例外地都机缘巧合地得到了号称能治...
日期:03-16
封神第一部总票房突破14亿 位列今年年度票房榜第7名_第一部封神榜是什么时候
根据灯塔专业版的实时数据显示,截至8月4日0时0分,电影《封神第一部》的票房已经达到14亿,登上内地影史总榜的第60位,也是2023年年度票房榜的第7位。此外,2023年暑期档(6月1日-8月3...
日期:08-04
蚂蚁金服金融知识图谱平台获得中国人工智能领袖峰会AIC标杆应用奖
  11月15日,以“AI赋能,重构未来新生态”为主题的第四届中国人工智能领袖峰会在深圳举办,“蚂蚁金服金融知识图谱平台”获得AIC标杆应用奖。   中国人工智能领袖峰会由深...
日期:09-15
元象企业管理(云南)有限公司「元象开源650亿参数高性能大模型,无条件免费商用_网易科技」
11月6日消息,元象XVERSE公司宣布,开源650亿参数高性能通用大模型XVERSE-65B,无条件免费商用。元象XVERSE创始人姚星表示:“面对研发时间紧、算力持续短缺等挑战,团队依靠丰富经验...
日期:11-07
海尔618:下一台热水器,不只是热水器_海尔热水器报价 海尔热水器价格表
对用户来说,一台优 秀的热水器,除了拥有“科技”“舒适”“节能”等必需属性之外,还要为日常的沐浴、用水体验赋予更多可能。 618 正当时,这样的热水器哪里找?6 月 14 日,海尔智家...
日期:06-15
老匡:年入千万的营销号大佬告诉你,如何批量生产营销号?|真实采访
声明:本文来自于微信公众号 匡方(ID:kuangfang2012),作者:匡方,授权转载发布。事情是这样的:最近,老匡跟几个兄弟说:明年,匡扶会社群会分成“大佬群”与“创业者群”2个群,现已有多...
日期:11-02
泰国清迈发布“居家办公令” 游客数量减少20%「泰国清迈旅游报价」
由于空气质量达到严重污染的水平,泰国清迈政府在当地时间4月7日发布了“居家办公令”,呼吁民众尽量不要外出。蔚来汽车与蔚来中国据报道,清迈近日的空气质量一直很差,受到持续的...
日期:04-10
高级餐厅厕所用凹凸标记引争议 最烦这种“新颖”的图标
近日,有浙江网友曝光了杭州桂语山房高级餐厅使用“凸”和“凹”标识来区分男女厕所的做法,并表示对此感到不适。根据该餐厅的介绍页面显示,该餐厅曾荣获2023年杭州米其林一星餐...
日期:07-05
苹果Apple Store已开始维护:WWDC新品要上了
快科技6月5日消息,今晚(6日凌晨)苹果将召开WWDC 2023开发者大会,此次不仅会推出iOS 17等新一代系统,还会有一波硬件产品登场。根据苹果官网显示,目前Apple Store已经开始维护了,新...
日期:06-06
工信部部长肖亚庆同志接受中央纪委国家监委审查调查
工业和信息化部党组书记、部长肖亚庆同志涉嫌违纪违法,目前正在接受中央纪委国家监委审查调查。招行快递优惠中国智能手机用户数量近年来以惊人速度苹果员工买applewatch小米...
日期:07-31
首发79999元 TCL发布全球最大115寸QD-Mini LED电视
快科技8月28日消息,TCL今晚正式发布了全球最大尺寸的QD-Mini LED电视115X11G Max,也是全球第一台20000 级分区QD-Mini LED电视,XDR亮度可达5000nits,首发售价79999元。设计方面,T...
日期:08-29
苹果要发信用卡  能否赢回市场芳心?_苹果店能用信用卡吗
  在iPhone销售陷入瓶颈之际,苹果正在认真地加大服务业务布局。上周,苹果不仅被曝与投行高盛联名发行信用卡,而且还在中国与蚂蚁金服合作,推出分期付款服务。   据了解,这...
日期:11-02
微软发布Windows 7系统自2009年正式发布以来第一个服务包
  北京时间2月23日消息,据国外媒体报道,微软今日发布了Windows 7系统自2009年底正式发布以来的第一个服务包。   微软在本月早些时候已经将SP1服务包提供给厂商,并承诺本...
日期:07-26
区块链共享经济:为什么可以挑战Uber和Airbnb?_uber是平台商业模式吗
在这个市场交易网络中,一些原来属于中心化公司的价值,将会转移至买家和卖家,例如交易费、上架费、服务费等;价值会更加公平地分配给生态系统的所有行为者,包括买家、卖家、dApp...
日期:08-01
聚焦信创 | 2023移动云城市发布会·广东站圆满落幕
8 月 23 日,“算网赋能 数智未来”—— 2023 移动云城市发布会·广东站在深圳举行。发布会重磅发布信创公有云专区、信创云电脑、信创实验室等三大信创系列产品,赋能我国新一...
日期:08-24
苹果第四财季营收微降、净利增长11%,库克称iPhone收入在中国创纪录
出品 | 科技作者 | 张雅婷11月3日消息,苹果公司发布2023财年第四财季(7月2日-9月30日)及全年财报。数据显示,苹果第四财季营收为894.98亿美元,同比下降1%;净利润为229.56亿美元,同...
日期:11-04
罗永浩新公司注册资本增至1亿元「罗永浩新公司注册资本增至1亿元了吗」
1月9日 消息:企查查APP显示,近日,北京细红线科技有限公司发生工商变更,注册资本增至1亿元人民币,大股东变更为ALWAYS ON TECH PTE.LTD. ,企业类型变更为“有限责任公司(外国法人独...
日期:01-09
大模型的最大bug,回答正确率几乎为零,GPT到Llama无一幸免_模型大型
声明:本文来自于微信公众号机器之心(ID:almosthuman2014),作者:机器之心,授权转载发布。大模型的逻辑?不存在的。我让 GPT-3和 Llama 学会一个简单的知识:A 就是 B,然后反过来问...
日期:09-24