您的位置:首页 > 互联网

8天狂收6100颗星,可商用!东京工业、麻省理工等开源Stream Diffusion_东京工业大学igp项目

发布时间:2023-12-29 10:16:39  来源:互联网     背景:

声明:本文来自于微信公众号 AIGC开放社区(ID:AIGCOPEN),作者:AIGC开放社区,授权转载发布。

加州大学伯克利分校、东洋大学、东京工业大学、麻省理工学院和筑波大学等研究人员,联合开源了一款创新性实时交互图像生成框架——Stream Diffusion。

Stream Diffusion的技术创新点在于,将传统的顺序去噪变成流批处理去噪,消除了漫长的等待、交互生成方式,实现了流畅且吞吐量超高的图像生成方法。

同时引入了“残差无分类器指导”方法,进一步提升了流批处理的效率和图像质量。

根据Stream Diffusion在Github上的项目提交历史记录显示,仅用了8天的时间就收到6100颗星成为霸榜开源产品,其性能和欢迎程度可见一斑。允许开发者商用。

开源地址:https://github.com/cumulo-autumn/StreamDiffusion

东京工科

论文地址:https://arxiv.org/abs/2312.12491

美元兑人民币工具

Demo展示:https://github.com/cumulo-autumn/StreamDiffusion/blob/main/assets/demo_03.gif

目前,扩散模型在图像生成方面获得了广泛应用并成功实现商业化落地,例如,该领域的标杆产品Midjourney。

但在实时交互方面表现不佳需要漫长的等待,尤其是涉及连续输入的场景中尤为明显。

为了解决这些难题,研究人员设计了一种新颖的输出、输入方法,就是将原始的顺序去噪转化为批处理去噪过程。

东京工业大学usnews排名

简单来说,Stream Diffusion相当于大模型领域的机械化流水作业,将单一、繁琐的去噪、推理流程改成批量处理。

流批式去噪方法

流批式去噪是Stream Diffusion的核心功能之一,也是实现实时交互的关键所在。

传统的交互式扩散模型都是顺序执行:一次输入一张图片,走完全部的去噪步骤后,再输出一张结果图像。然后不断重复这个过程,生成完成更多的图像处理。

这样就造成一个很大的问题速度和质量难以同时得到保证。为了生成高质量的图像,需要设置较多的去噪步骤,导致生成图像的效率较慢,无法做到“鱼与熊掌”兼得。

流批式去噪的核心思想是:当输入第一张图像开始去噪步时,不必等待它完成,就可以接收第二张图像,以实现批量方式处理。

这样,U-Net只需要不断调用,处理一个批量的特征,就可以高效实现图像生成流水线的批量推进。

支付宝apple专区赠icloud

此外,流批式去噪方法的好处在于,每次调用U-Net就可以使多个图像同时推进一步,而U-Net的批量运算非常适合GPU并行计算,所以整体运算效率非常高。

最终可以在保证质量的同时,显著缩短单张图像的生成时间。

残差无分类器指导

为了强化提示条件对结果的影响,扩散模型通常使用一种叫“无分类器指导”的策略。

在传统方法中,计算负条件向量时需要对每个输入潜向量配对负条件嵌入,每次推理都要调用U-Net算力消耗巨大。

为了解决这个问题,研究人员提出了“残差无分类器指导”方法。其核心方法是,假定存在一个“虚拟残差噪声”向量,用来逼近负条件向量。

首先计算“正条件”向量,再用正条件向量反推这个虚拟负条件向量。这样就避免了每次都要额外调用U-Net来计算真实的负条件向量,从而大幅减少了算力。

简单来说,就是用原始的输入图像编码作为负样本,无需调用U-Net就可以计算。稍微复杂一点的“一次负条件”,是在第一步使用U-Net计算一次负向量,然后重复使用这个向量近似后面的所有负向量。

流水线作业

该模块的功能是使整个系统的瓶颈不再是数据格式的转换,而是基于模型本身的推理时间。

通常,输入的图片需要缩放、转换格式等预处理才能成为模型可用的张量;输出的张量也需要后处理恢复为图片格式,整个流程消耗大量时间和算力。

流水线作业将预/后处理与模型推理完全分离开来,置于不同的线程中并行执行。输入图像经过预处理进入输入队列缓存;

输出张量从输出队列发出,再后处理为图片。这样两者就可以不互相等待,从而优化了整体流程速度。

此外,该方法还起到平滑数据流的作用。当输入源故障或通信错误导致暂时没法传入新图像时,队列可以继续提供之前缓存的图像,保证模型的流畅运行。

华为智慧屏s75寸

随机相似度过滤

该模块的功能是显著减少GPU算力消耗。当输入的图片连续相同或高度相似时,反复推理是没有任何意义的。

所以,相似度过滤模块计算输入图片与历史参考帧的相似度。如果高于设定阈值,则以一定概率跳过后续的模型推理;

如果低于阈值,则正常进行模型推理并更新参考帧。这种概率采样机制使得过滤策略可以平滑自然地对系统进行节流,降低平均GPU使用率。

在静态输入下过滤效果明显,动态变化大时自动降低过滤率,系统可以自适应场景动态性。

这样,复杂度动态变化的连续流输入下也可以自动调节系统推理负载,节约GPU算力消耗。

实验数据

为了测试Stream Diffusion的性能,研究人员在RTX3060、RTX4090上进行了测试。

效率方面,实现了超过91FPS的生成帧率,是当前最先进的AutoPipeline的近60倍,并极大减少去噪步骤。

功耗方面,静态输入下,RTX3060和RTX4090的平均功率分别降低了2.39倍和1.99倍。

本文素材来源Stream Diffusion论文,如有侵权请联系删除


返回网站首页

本文评论
华为已成国内份额第一 分析师称iPhone明年将输给华为
来源:中关村在线华为Mate60系列的发布对苹果手机销量产生了影响。根据分析机构最新发布的报告,由于竞争对手的崛起和市场需求疲软,苹果新iPhone在中国市场的销售表现低于其前代...
日期:10-18
草根潮语登春晚 魔术刚演完微博就解密
  昨晚,作为全国人民的年夜饭里必不可少的一道“菜”,央视兔年春晚如约跟观众见面了。跟以往春晚不同的是,今年春晚增添了不少草根元素,西单女孩、旭日阳刚、深圳民工街舞团...
日期:07-26
DOTA2国家集训队名单 主教练为张志成_国家dota2战队
今天下午,杭州亚运会电子竞技(刀塔项目)国家集训队候选人员名单正式出炉,主教练为张志成(ID:LaNm),选手有丁聪(ID:Dy)、杜鹏(ID:Monet)等国内顶尖选手。根据《关于第十九届杭州亚运会...
日期:05-24
小米10 Pro 今天上午 10 点 再开售(小米10pro发售日期)
  3月3日消息 2月13日,雷军正式面向公众发布了小米10、小米10 Pro手机。小米10 Pro手机搭载了最新旗舰骁龙865处理器,全系采用LPDDR5内存、WiFi 6、UFS 3.0存储、1亿像素相...
日期:03-15
RIAA 呼吁政府将人工智能语音克隆网站列入盗版监管名单_语音克隆软件安卓版
10月12日 消息:近日, 美国唱片工业协会(RIAA)最近提出了一个要求,呼吁美国政府将人工智能语音克隆网站纳入在线盗版监管名单。在向美国贸易代表(USTR)提交的一份文件中,RIAA 敦促...
日期:10-12
鲁大师5月新机流畅榜:ColorOS长期霸榜,鸿蒙系统终于入局
  5月安卓新发布手机流畅榜数据来自鲁大师安卓APP 05.01日-05.31日数据,榜单只筛选在这期间新发布的机型。部分新机测试数据较少或为工程机数据,分数不稳定。榜单展示分数...
日期:11-06
一加12提前官宣,6400万潜望长焦+2K东方屏,24GB+1TB定价良心
为新手机预热是手机行业中的惯例,但一般的预热也只是简单公布一下新机的部分配置,然而如今一款新手机竟然在举办发布会之前,专门举办了一场影像战略沟通会,这款新机就是一加12,这...
日期:11-11
第六届进博会盛大举办 三星以BESPOKE HOME系列引领套系家电新时代_三星展览馆
11 月 5 日至 10 日,以“新时代共享未来”为主题的第六届中国国际进口博览会在上海国家会展中心如期举办。三星连续六年参展进博会,带来BESPOKE缤色铂格冰箱、洗/干衣机、衣物...
日期:11-07
50个入选!工信部公布建材工业智能制造数字转型典型案例_建材行业智能制造三年行动计划
通信世界网消息(CWW)近日,据工信部官网消息,2023年50个建材工业智能制造数字转型典型案例正式发布。50个典型案例分别涵盖单项应用、工业互联网场景、数字矿山、系统解决方案、...
日期:11-09
韩企刚宣布给员工发史上最壕120个月年终奖:结果被罚千亿_年末期望落空,韩国近七成企业表示不发年终奖
你的年终奖有着落了吗?日前,韩国炼油商现代石油银行(Hyundai Oilbank)宣布要给员工发放相当于120个月工资(10倍年薪)的年终奖。消息甫出引发轰动,可就在打工人”津津乐道并报以羡慕...
日期:01-08
前5分钟都留不住玩家,现在的游戏新手教程到底差在哪?_新手怎么玩游戏
声明:本文来自微信公众号“游戏葡萄”(ID:youxiputao),作者:Wenlon,授权转载发布。当开发者从玩家视角思考这个问题。玩家首次进入游戏的第一印象至关重要,它决定了玩家会不会留...
日期:10-27
阿里辟谣海外建全球总部:全球总部始终在杭州 搬到新加坡纯属谣言
凤凰网科技讯 1月27日消息,据《钱江晚报》报道,位于杭州市余杭区未来科技城的阿里巴巴杭州全球总部项目历经十年持续建设,已正式进入收官阶段,将于2023年底全面建成并投入使用。...
日期:01-27
我们与丰田副社长聊了聊汽车电动化和未来出行「丰田宣布与 Oncor 合作研究电动汽车向电网反向充电技术」
12月16日消息:丰田汽车北美公司和位于德克萨斯州的输电和配电公司 Oncor Electric Delivery(Oncor)已同意围绕车辆到电网(V2G)开展试点项目,这项技术允许车辆将其电池中的能...
日期:12-16
m5问界「华为问界M9搭载途灵底盘:悬挂每秒调节100次 烂路如履平地」
快科技12月26日消息,问界M9及华为冬季全场景发布会召开,问界M9正式发布。余承东介绍,问界M9搭载华为领先一代的途灵智能底盘,采用高性能全铝合金底盘与一体化铝合金压铸车架。比...
日期:12-27
百川智能发布Baichuan2—Turbo系列API_百川智能上市
12月19日消息,百川智能宣布开放基于搜索增强的Baichuan2-Turbo系列API,包含Baichuan2-Turbo-192K及Baichuan2-Turbo。在支持192K超长上下文窗口的基础上,还增加了搜索增强知识...
日期:12-19
美国限制人工智能「美国法院裁定人工智能生成的艺术不受版权保护 或震动媒体世界」
8月21日消息:从大型科技公司到好莱坞纠察线上的演员和作家,关于人工智能系统创造的艺术还是媒体的问题一直在争论。近日一位联邦法官或许已经给出了答案。美国联邦地区法院法...
日期:08-22
区块链密码 —— 通付盾数据安全存储、加密分享和公平交易实践
  现代密码学技术发展已近百年,先进、安全、可控的密码技术是网络安全的基础,在中国大力发展数字经济的今天,更是被赋予重要的历史使命。区块链技术虽然近年来才兴起,但其作...
日期:07-16
周鸿祎:元宇宙的未来是产业元宇宙_元宇宙 互联网的未来
8月30日消息,8月27日,360集团创始人、董事长周鸿祎在第三届上海创新创业青年50人论坛上发表主旨演讲,分享了对创新创业的思考。周鸿祎表示,产业数字化的过程中,企业级服务市场依...
日期:09-11
主播穿牵手门同款裙带货被指蹭热度 有店铺一夜卖掉4000多件
近日,一段中石油子公司高管与女下属在成都太古里牵手逛街的街拍视频在网上引发轩然大波,两人随后被公司停职接受调查。而在这起反腐事件的余波中,女当事人所穿的粉色吊带裙却意...
日期:06-09
华为出手,5G网速快10倍,刚买的iPhone15,就过时了?_苹果5g手机和华为5g手机上网快
才买的iPhone15 Pro,喜滋滋的到处秀,不是说苹果的使用寿命高达8年么,怎么着也要用个三年吧。但是,突然一个同事跑过来说,还秀什么秀,你刚买的iPhone15 Pro,就过时了,马上就要淘汰了,...
日期:10-15