您的位置:首页 > 互联网

视频生成控制提升几十倍,新一代轻量级ControlNeXt火了,贾佳亚团队正挑战Scaling Law

发布时间:2024-08-29 20:26:52  来源:互联网     背景:

声明:本文来自于微信公众号 机器之心,作者:机器之心,授权转载发布。

最近,又一款国产 AI 神器吸引了众网友和圈内研究人员的关注!它就是全新的图像和视频生成控制工具 —— ControlNeXt,由思谋科技创始人、港科大讲座教授贾佳亚团队开发。

X 平台上知名 AI 博主AK推荐

从命名来看,ControlNeXt 致敬了斯坦福大学研究团队在2023年2月提出的 ControlNet,通过引入一些额外的控制信号,让预训练的图像扩散模型(如 Stable Diffusion)根据预设的条件调整和优化,实现线稿生成全彩图,还能做语义分割、边缘检测、人体姿势识别。

如果说 ControlNet 开启了大模型多样化玩法的先河,那么 ControlNeXt 在生成速度、精准控制和用户友好性等方面迎来全方位优化。重要的是,ControlNeXt 只用不到 ControlNet10% 的训练参数,可以称得上是下一代小钢炮版ControlNet 了。

截至目前,ControlNeXt 兼容了多款 Stable Diffusion 家族图像生成模型(包括 SD1.5、SDXL、SD3),以及视频生成模型 SVD。并且,ControlNeXt 对这些模型都做到即插即用,无需额外配置便能轻松玩转各种控制指令,便捷性拉满。该项目的 GitHub 星标已达1.1k。

项目地址:https://github.com/dvlab-research/ControlNeXt

实战效果究竟如何?下面一波 ControlNeXt 的 Demo 示例会给我们答案。

ControlNeXt 支持 Canny(边缘)条件控制,在 SDXL 中,通过提取下图(最左)输入图像的 Canny 边缘,输出不同风格的图像。

当然,更复杂的画面轮廓和控制线条也能轻松搞定。

ControlNeXt 还支持掩模(mask)和景深(depth)条件控制,下图分别为 SD1.5中掩模与景深可控生成效果,很有一笔成画的味道。

同样在 SD1.5中,ControlNeXt 支持姿势(pose)条件控制,并且无需训练即可无缝集成各种 LoRA 权重。配合使用人体姿势控制与 LoRA,在保持动作相同的前提下,多样风格的人物呼之欲出,比如战士(Warrior)、原神(Genshin)、国画(Chinese Painting)和动画(Animation)。

使用 ControlNeXt 后,SD3支持了超分辨率(SR),让模糊图像变身超高清画质。

在视频生成模型 SVD 中,ControlNeXt 实现了对人体姿势动作的整体控制,尤其连手指动作的模仿都非常精准。

不夸张的说,在视觉条件生成这块,ControlNeXt 成为了更全能的选手。它的亮眼视效折服了网友,甚至有人认为ControlNeXt 是游戏改变者,在可控图像和视频生成方面表现出色,可以想象未来社区会拿它做更多二创工作。

而 ControlNeXt 体验全方位提升的背后,离不开贾佳亚团队在轻量级条件控制模块设计、控制注入位置和方式的选择、交叉归一化技术的使用等多个方面的独到思路。

北京金山办公软件有限公司官方网站

正是有了这些创新,才带来了 ControlNeXt 训练参数、计算开销和内存占用的全面瘦身,以及模型训练收敛和推理层面的提速。

架构创新

让 ControlNeXt 更轻、更快、更强

在剖析 ControlNeXt 有哪些创新之前,我们先来了解一下当前可控生成方法的不足,这样更能看到贾佳亚团队在架构上有的放矢的优化。

以 ControlNet、T2I-Adapter 等典型方法为例,它们通过添加并行分支或适配器来处理和注入额外条件。接下来与去噪主分支并行处理辅助控制以提取细粒度特征,利用零卷积和交叉注意力来整合条件控制并指导去噪过程。

这些操作往往会带来计算成本和训练开销的显著增加,甚至导致 GPU 内存增加一倍,还需要引入大量新的训练参数。尤其针对视频生成模型,需要重复处理每个单独帧,挑战更大。

贾佳亚团队首先要做的便是架构层面的剪枝。他们认为,预训练的大型生成模型已经足够强大,无需引入大量额外参数来实现控制生成能力。ControlNeXt 移除 ControlNet 中庞大的控制分支(control branch),改而使用由多个 ResNet 块组成的轻量级卷积模块。

ControlNeXt 整体训练流程

该模块的规模比预训练模型小得多,用于从控制条件中提取景深、人体姿势骨骼、边缘图等特征表示,并与去噪特征对齐。过程中更多依赖模型本身来处理控制信号,在训练期间冻结大部分预训练模块,并有选择性地优化模型的一小部分可学习参数,最大程度降低训练过程中可能出现的遗忘风险。

从结果来看,在适配 SD、SDXL、SVD 等预训练模型时,ControlNeXt 的训练参数量通常不及 ControlNet 的10%,计算开销和内存占用大大降低。ControlNeXt 在 SD1.5、SDXL 和 SVD 中的可学习参数量分别为3000万、1.08亿和5500万,相较于 ControlNet 有了数量级减少(3.61亿、12.51亿和6.82亿)。

同时轻量级模块的引入使得 ControlNeXt 在推理阶段不会出现明显的延迟,因而生成速度会更快。如下图所示,在 SD1.5、SDXL 和 SVD 模型中,ControlNeXt 的推理时间更短,相较于 ControlNet 更具效率优势。

另一方面,ControlNeXt 在控制条件的注入层面做了创新。他们观察到,在大多数可控生成任务中,条件控制的形式往往很简单或与去噪特征保持高度一致,因而没有必要在去噪网络的每一层重复注入控制信息。

贾佳亚团队选择在网络中间层聚合并对齐条件控制特征与去噪特征,这里用到了关键的交叉归一化(Cross Normalization)技术。该技术让 ControlNeXt 不用像传统方法那样利用零初始化来引入额外学习参数,还解决了初始化阶段的训练不稳定性和收敛速度慢等问题。

得益于交叉归一化,ControlNeXt 的训练速度得到提升,并在训练初期也能确保生成控制的有效性,降低对网络权重初始化的敏感度。从下图可以看到,ControlNeXt 实现了更快的训练收敛和数据拟合,只需要400步左右便开始收敛。相比之下,ControlNet 则需要走完十倍甚至几十倍的训练步数。

可以说,ControlNeXt 很好解决了以往可控生成方法存在的较高计算成本、GPU 内存占用和推理时延,用更少参数、更低成本实现了与以往方法相当甚至更好的控制效果和泛化性能。

而跳出此次研究本身,ControlNeXt 也是过去两年贾佳亚团队努力方向的写照,他们致力于拿少参数、少算力来深挖大模型潜能。这显然与当前大模型领域的摩尔定律Scaling Law 走的是不同的路,后者通常凭借大参数、大数据和大算力来提升模型性能。

不盲跟 Scaling Law

走出不一样的大模型之路

当前,Scaling Law 仍然在发挥着作用,通过加码参数、数据和算力来增效是大多数圈内玩家的主流做法,OpenAI 的 GPT 系列模型是其中的典型代表,对大模型领域产生了深远的影响。

随之而来的是更高的训练成本、更多的数据和计算资源,这些不会对财力雄厚的大厂们造成太多压力。但对那些预算相对不足的科研机构和个人开发者而言,挑战很大,尤其是当下 GPU 显卡还越来越贵。

其实,拼 Scaling Law 并不是模型提效的唯一途径,从长期看也有局限性。很多业内人士认为,随着时间推移,当模型参数规模达到一定程度时,性能提升速度可能会放缓。同时高质量训练数据的持续获取也是亟需解决的一大难题。

今年6月,普林斯顿大学计算机科学系教授 Arvind Narayanan 等二人在他们的文章《AI scaling myths》中表示 AI 行业正经历模型规模下行的压力,过去一年大部分开发工作落在了小模型上,比如 Anthropic 的 Claude3.5Sonnet、谷歌的 Gemini1.5Pro,甚至 OpenAI 也推出了 GPT-4o mini,参数规模虽小、性能同样强大且更便宜。

贾佳亚团队秉持类似理念,没有选择无限堆数据、参数和算力的传统做法。2024世界机器人大会上,贾佳亚在接受采访时谈到了 Scaling Law,他表示在自己团队的研究中不会对它进行明确的定义,使用1万张卡训练出来的模型或系统不一定就比5000张卡训练出的更好。

贾佳亚认为应该更多地在模型算法层面进行创新,在工程层面最大程度地提高 GPU 显卡的利用率、降低功耗,力求用更少的计算量达到同样的效果。

同时关注偏垂类的行业和场景,通过持续的技术迭代,把算力等资源投入集中在一点,将某个领域的模型做得更精、更专,而不像其他玩家那样耗巨资开发超大规模通用大模型。

小算力也能出大成果

包括 ControlNeXt 在内,不盲从 Scaling Law 的思路已经在贾佳亚团队过去两年的系列成果中得到了充分验证,覆盖了多模态大模型、超长文本扩展技术和视觉语言模型等多个研究方向。

2023年8月,贾佳亚团队提出 LISA,解锁多模态大模型推理分割能力。LISA 只需要在8张24GB 显存的3090显卡上进行10000次迭代训练,即可完成70亿参数模型的训练。

结果表明,LISA 在训练中仅使用不包含复杂推理的分割数据,就能在推理分割任务上展现出优异的零样本泛化能力,并在使用额外的推理分割数据微调后让分割效果更上一个台阶。

LISA 效果展示

LISA 的成功只是少算力探索的牛刀小试,贾佳亚团队在2023年10月提出了超长文本扩展技术 LongLoRA,在单台8x A100设备上,LongLoRA 将 LLaMA27B 从4k 上下文扩展到100k, LLaMA270B 扩展到32k。LongLoRA 还被接收为 ICLR2024Oral。

在喂给 LongLoRA 加持的 Llama2-13B 超长篇幅的科幻巨著《三体》后,它可以为你详细总结史强对整个人类社会的重要性。

该团队还于2023年12月提出 LLaMA-VID,旨在解决视觉语言模型在处理长视频时因视觉 token 过多导致的计算负担,通过将视频中每一帧图像的 token 数压缩到了2个,实现了单图之外短视频甚至3小时时长电影的输入处理。

LLaMA-VID 被 ECCV2024接收。此外,贾佳亚团队还提供了 LLaMA-VID 试用版本,由单个3090GPU 实现,支持30分钟的视频处理。感兴趣的小伙伴可以尝试一下。

今年4月,贾佳亚团队又提出了 Mini-Gemini,从高清图像精确理解、高质量数据集、结合图像推理与生成三个层面挖掘视觉语言模型的潜力。

为了增强视觉 token,Mini-Gemini 利用额外的视觉编码器来做高分辨率优化。同时仅使用2-3M 数据,便实现了对图像理解、推理和生成的统一流程。实验结果表明,Mini-Gemini 在各种 Zero-shot 的榜单上毫不逊色各大厂用大量数据堆出来的模型。

在延续谷歌 Gemini 识别图片内容并给出建议的能力基础上,Mini-Gemini 还能生成一只对应的毛绒小熊

对于开源社区最大的好消息是,Mini-Gemini 的代码、模型和数据全部开源,让开发者们体验GPT-4+ Dall-E3的强大组合。贾佳亚透露,Mini-Gemini 第二个版本即将到来,届时将接入语音模块。

得益于开源以及算力需求相对低的特性,贾佳亚团队的项目在 GitHub 上受到了开发者的广泛喜爱,LISA、LongLoRA 和 Mini-Gemini 的星标数分别达到了1.7k、2.6k 和3.1k。

从 LISA 到最新提出的 ControlNeXt,贾佳亚团队走稳了少参数、小算力突破这条路。由于计算资源投入不大,这些模型也更容易实现商业化应用落地。

可以预见,未来在持续技术创新的驱动下,我们将看到更多小而弥坚的大模型成果出现。


返回网站首页

本文评论
酷睿Ultra/14代酷睿都来了:一图看懂Intel处理器品牌大调整_2020年英特尔第14代酷睿处理器
快科技6月23日讯,前几天Intel对处理器品牌进行调整,在酷睿i之后,首次引入酷睿Ultra和酷睿家族。不过,对于一些朋友来说,似乎还显得有些混乱模糊。其实简单可梳理如下:阅文集团盈利...
日期:06-24
美国监管机构要求法院暂时禁止微软收购动视暴雪
新浪科技讯 北京时间6月23日早间消息,美国联邦贸易委员会(FTC)向美国联邦法院提出申请,要求颁发初步禁令,禁止微软近690亿美元收购动视暴雪的交易。 FTC律师James Weingarten在...
日期:09-23
埃隆·马斯克的Twitter取证日程被推迟 因为其正在努力推进完成交易_埃隆马斯克转发
据英国《金融时报》和彭博社报道,埃隆·马斯克将不再于周四上午接受Twitter律师的质询,此前双方同意推迟此次取证日程,因为他们正在努力完成对该社交媒体网络440亿美元的收购。...
日期:10-13
2021年度微信朋友圈十大谣言_2021微信停用朋友圈
  1 月 3 日消息,微信安全中心近日公布了 2021 年度朋友圈十大谣言,回顾过去的 12 个月,有哪些谣言让我们一眼洞穿,又有哪些传言曾让我们信以为真,IT之家与大家一起回顾。  ...
日期:10-13
没用的知识增加了!一图了解劳斯莱斯全部车型:最贵1.8亿「劳斯莱斯车价格最贵多少钱一辆」
快科技4月8日讯,作为汽车品牌里的顶级存在,劳斯莱斯一直都是很多人心中的梦,那么你知道劳斯莱斯都有哪些车型在售,它们价格又是多少吗?今日,有博主发表了一图流,可以帮助你轻松弄清...
日期:04-08
苹果iOS 18新功能:实时视频援助_iphone视频实况
北京小苹果树学堂网站苹果在最新发布的 iOS 18 系统中,为 iPhone 用户新增了一项实时视频功能,旨在提供更加便捷和高效的紧急情况下援助。用户可以使用该功能向急救人员发送实...
日期:06-16
李斌直播夸理想MEGA外形有突破 重申禁止蔚来员工参与舆论风波
快科技3月15日消息,3月14日晚,蔚来CEO李斌正式入驻抖音,并开启他个人账号的首播,李斌在直播中谈到了近期理想MEGA外观舆论争议。no one but yourself中文特斯拉model y维修手册...
日期:03-15
王婆崖有什么耍的「景区回应王婆暂别舞台:离开舞台几天 调养身体」
近日,在河南开封的万岁山景区,一位名叫王婆的演员因其意外情况而引起了广泛关注。原来,在3月24日的一场演出中,王婆在舞台上突然宣布,由于身体不适,她需要暂时离开舞台,无法继续为...
日期:03-26
心系天下三星w24心系天下三星W24|W24 Flip锻铸精英之选 创新无界经典流芳
来源:中关村在线器物有形,匠心无界,每一件价值不菲的艺术品,都镌刻着不朽的匠心。心系天下三星W系列历经十六载沉淀,成为备受精英人士青睐的超高端经典之作。而今,心系天下三星W24...
日期:12-13
老马和小扎,要把40亿人带进Web3
三星tizen电视   出品|虎嗅科技组   作者|周舟   头图|视觉中国   一个奇怪的国际现象正在互联网行业发生,腾讯(中国最大的社交公司)、Meta(美国最大的社交公司)、Line(日本...
日期:08-16
特斯拉Cybertruck全国巡展1月28日开启 定名赛博越野旅行车_特斯拉赛博皮卡官网
1月26日 消息:近日,特斯拉Cybertruck在中国正式定名为“赛博越野旅行车”,这一名称的公布引起了广泛关注。此外,特斯拉还宣布将于1月28日在全国范围内启动Cybertruck巡展活动,届...
日期:01-26
免费!开源Windows系统发布新版:添加大量实用功能(开源软件windows)
  开源Windows系统,听说过吗?   实际上,从1996年起,ReactOS项目就启动了,目的在于通过开源、免费的方式重建Windows NT内核以及系统层,日前,ReactOS 0.4.14发布下载。   ...
日期:06-04
夺命的野生景点 是如何成为“网红打卡地”的_旅游景点网红
作者: 乐琰   高温热浪带火了城市周边的避暑休闲游,然而此时却发生了意外。   周末或假期,在四川彭州市龙门山镇小鱼洞社区龙槽沟的河道上,人们铺开桌子搓起了麻将,或在露营...
日期:08-17
台风来袭浙江多地「第2号台风“马力斯”登陆:浙江福建等多地迎来大暴雨」
快科技6月1日消息,据中国天气网报道,今天凌晨,今年第2号台风马力斯”在广东阳江登陆,将继续北上,受其影响,广东中部和西北部、福建北部和东南部沿海、江西东部、浙江南部等地部分...
日期:06-01
爆款之后,阅文IP剧改遇困局_阅文ipo
声明:本文来自于微信公众号 新熵,作者:樱木,授权转载发布。2024年过半,影视行业的持续火热。古装、年代、都市等主流赛道佳作频出,多元类型剧集各展风采。6月26日,影视数据平台灯...
日期:07-18
《英雄联盟》LPL夏季赛EDG对战IG首发名单出炉:Uzi确定上场迎复出首战
6月13日消息,在Uzi(简自豪)正式加盟EDG战队后,备受玩家期待的就是Uzi会在哪场比赛上场。今日晚间,英雄联盟赛事”官博发布2023LPL夏季赛6月14日首发名单,在下午17:00的EDG对战IG的...
日期:06-14
天猫发布商家入驻新政策:新锐、内容型商家入驻3个月免佣「天猫入驻门槛」
7月18日消息,昨日,天猫启动“蓝星计划”,发布新商家入驻新政策:为2023年7月到9月底成功入驻的天猫商家,提供最高5万元的经营激励金,用于3个月店铺佣金抵扣;提供从入驻到经营的1对1...
日期:07-18
华为Mate 60 Pro首发7nm麒麟9000 功能
近日,博主科技小辛对华为Mate 60 Pro的卫星通话功能进行了测试,成功实现了与卫星的连接。这款手机不仅支持卫星通话,还支持卫星短信。 据了解,华为Mate 60 Pro是全球首款支持卫...
日期:09-04
云视讯融合portal_融云实时音视频落地各应用场景 以 RTC+IM 双重能力服务开发者
  疫情之下,在线教育、娱乐社交、电商直播等领域逆势增长,也带动了开发者们对于 IM 和RTC能力的需求热潮。然而对开发者来说,分别选择不同的IM 和RTC厂商实现通信场景,不仅降...
日期:07-14
每月费用7.99美元 Meta推出VR订阅服务Quest+
北京时间6月27日早间消息,据报道,当地时间周一,Meta推出面向VR头盔的付费订阅服务Meta Quest+,VR是一个新生市场。华硕eeepc1011px乐视股权拍卖Meta CEO扎克伯格介绍称,Meta Ques...
日期:09-23