您的位置:首页 > 互联网

小红书开源InstantID效果炸裂,被Yann LeCun点赞,迅速蹿上Github热榜

发布时间:2024-02-02 00:30:53  来源:互联网     背景:

声明:本文来自微信公众号“机器之心”(ID:almosthuman2014),授权转载发布。

只需一张照片,整个过程无需训练 LoRA 模型,多风格 AI 写真即刻呈现!

小米11 lite 国际版

最近,有一群来自小红书的95后神秘团队,自称 InstantX,搞了个大动作 —— 开源InstantID项目。

InstantID 凭借着高质量的图像生成能力,在开源界掀起了一股热潮:不仅获得了众多技术大佬的点赞,更是在 GitHub 热榜上迅速飙升,成为焦点。

这个出片神器,让用户只需上传一张照片,就能轻松定制出多种风格的 AI 写真。

对,你没看错。如图左侧所示,与之前爆火的妙鸭相机至少需要上传20张照片不同的是,InstantID 只需一张自拍,不依赖模型训练,不需要等待,瞬间变身。

无论是古典油画的优雅,炫酷的赛博朋克,或是3D 雕像的立体感,只要是你喜欢的风格,InstantID 都能轻松驾驭。

它不仅风格多样,还能在保持人物面部高保真的同时,无需模型训练,实现秒级出图,效率大幅提升。

InstantID 目前位列 Hugging Face Space Trending 榜首,许多小伙伴玩得不亦乐乎~

比如,把马斯克送上了火星。

让蒙娜丽莎拍樱花写真,微笑依旧很神秘。

甚至可以让语文课本中的杜甫从二维变三维,穿越到现代变身帅大叔。

图灵奖得主 Yann LeCun,化身多种动漫人物,你猜出了几个角色?

就连 Yann LeCun 本人也点赞转发,调侃自己的钢铁侠衣服在哪里。

天玑720八核和骁龙865哪个好

在个性化图像合成领域,实现强烈风格化写真的同时保持面部高保真度,一直是个挑战。

从效果上看,InstantID 做到了。那它背后运用了哪些方法,有什么独到之处吗?

回顾过去,尽管 Textual Inversion、 DreamBooth 和 LoRAs 等技术已经取得了重大进展。但它们在实际应用中仍受限于高存储需求、耗时的微调过程以及对多张参考图像的依赖。相比之下,现有基于 ID 嵌入的方法虽然只需一次前向推理,但也面临不小挑战:要么需要对大量模型参数进行广泛的微调,要么与社区预训练模型不兼容,要么无法保持高真实性。

InstantID 的出现,打破了这些局限。小红书 InstantX 团队公开了论文《 InstantID: Zero-shot Identity-Preserving Generation in Seconds 》和推理代码,他们表示:InstantID 巧妙地避免了对文生图模型 UNet 部分的训练,仅通过训练一个轻量级的可插拔模块,实现了在推理过程中无需 test-time tuning,同时保持了文本控制的灵活性,确保了面部特征的高保真度。

如图所示,InstantID 的工作原理可分为三个关键部分:

  • ID Embedding:团队利用预训练的面部识别模型代替 CLIP 来提取语义人脸特征,并使用可训练的投影层,将这些特征映射到文本特征空间,形成 Face Embedding,具有丰富的语义信息,包括如面部特征、表情、年龄等,为后续的图像生成提供了坚实的基础。

  • Image Adapter:引入一个轻量级的适配模块,将提取的身份信息与文本提示结合起来。这个模块通过解耦的交叉注意力机制,使得图像和文本能够独立地影响生成过程,从而在保持身份信息的同时,允许用户对图像风格进行精细控制,实现双赢。

  • IdentityNet:小红书提出了一个名为 IdentityNet 的网络,是 InstantID 的核心部分。它通过强语义条件(如面部特征的详细描述)和弱空间条件(如面部关键点的位置)来编码参考面部图像的复杂特征。在 IdentityNet 中,生成过程完全由 Face Embedding 引导,无需任何文本信息。仅更新新添加的模块,而预先训练的文本到图像模型保持冻结以确保灵活性。

在实际的图像生成过程中,InstantID 首先会接收到用户的文本提示和面部图像。然后通过 ID Embedding 提取关键信息,接着 Image Adapter 将这些信息与文本提示融合。IdentityNet 会根据这些融合后的信息生成图像。

整个过程是自动化的,用户不需要进行任何额外的微调或训练,只需等待二十几秒,就能得到一个既符合文本描述又保留个人身份特征的定制图像。

InstantID 不仅解决了训练效率与身份保真度之间的平衡问题,还提供了一系列令人印象深刻的特性。

首先,InstantID 的即插即用和兼容性是其最大的卖点之一。它无需对 UNet 进行额外训练,即可与现有的预训练模型无缝集成,如社区内的文生图基础模型、LoRAs 和 ControlNets。这意味着用户可以在不增加成本的情况下,轻松地在推理过程中保持人物的身份特征,裂变性强。

其次,InstantID 的无需微调特性,使得它在实际应用中极具经济性和实用性。用户只需进行一次前向传播,即可快速生成图像,同时保持对文本编辑的强大控制力,让身份信息与各种风格完美融合。如下图所示,其编辑性强的特点让用户能够通过文本控制性别、头发、服装等细节,确保生成图像的多样性。

性能方面的表现同样卓越,它能够仅凭一张参考图像,就生成具有高保真度和灵活性的先进结果。这一性能不仅超越了基于单张图片特征的嵌入方法,如 IP-Adapter-FaceID,而且在特定场景下,其效果与 ROOP、LoRAs 等方法不相上下。

对于相似度有更高要求的真人写真场景,InstantID 也能完成得不错。不仅能够在秒级时间内完成高质量的图像生成,还避免耗时的 LoRa 训练,相比妙鸭成本更低,大约是其1/300。通过精细化控制脸部区域,InstantID 能够增强脸部相似度,同时保持整体风格的和谐。

此外,InstantID 的分区域生成方案支持多人多风格的图像生成,耗时基本无增。

它的鲁棒性和泛化性,使其能顺利处理夸张的五官比例。

多视角的生成也没问题。按你指定的姿势图和面部特征,生成新的 AI 写真。

InstantID 的可扩展性良好,能够快速支持多种衍生功能。

比如快速换脸。与 Inswapper 相比,InstantID 生成的作品在面孔和背景的融合上更加灵活。

ID 信息插值。InstantID 支持两脸自定义融合,保留双方特征。

非人像与 ID 的结合,很有特点。

聊到这儿,不妨你亲自尝试一下,感受它的魅力。

操作方式非常简单,进入 InstantID 的 Demo 页面,直接上传照片,便可免费体验 :

https://huggingface.co/spaces/InstantX/InstantID

InstantID 的这些优势,不仅为个人用户提供了强大的创作工具,也为商业应用如电子商务、广告和娱乐产业开辟了新的可能性。InstantID 本次表现令人惊喜,其高效、灵活、强大的性能和易用性,印象深刻。期待小红书该开源项目的后续进展,未来能在多个领域发挥出更大的价值。

附录:

  • 论文地址:https://arxiv.org/abs/2401.07519

  • InstantID 主页:https://instantid.github.io/

  • Demo 尝鲜:https://huggingface.co/spaces/InstantX/InstantID


返回网站首页

本文评论
奔驰发布MB.OS车机系统:更快更智能_奔驰历代车机系统
梅赛德斯-奔驰在CES 2024上发布了全新的MB.OS车机系统。这套系统采用了独特的人工智能虚拟助理,提供丰富的音频和游戏合作伙伴应用程序,并搭载三维游戏引擎,以提供更复杂的图形...
日期:01-10
首次推出Ultra版-多方面搭载最强技术 消息称华为P60系列已投产_华为p60最新官方消息
按照往年节奏,华为很可能在今年第一季度推出新一代P系列旗舰——华为P60系列,甚至近期有传闻称华为有望在2月底的MWC大会上推出该系列机型。虽然官方截至目前并未公布相关实质...
日期:09-20
京东回应被曝大裁员:只是业务板块的正常优化_京东公司存在的问题及优化
  据中国基金报报道,互联网大厂的“裁员潮”愈演愈烈。近日,社交平台上一份致京东员工的“毕业须知”引起热议。有多名认证为京东员工的网友发声,京东多条业务线正在裁员,并...
日期:11-01
华为发布Vision智慧屏:120Hz高刷 最大86寸 5999元起「华为智慧大屏75寸配置」
今晚华为推出了新品牌的Vision智慧屏,主要有三个系列,分别是Vision智慧屏、Vision智慧屏Z电竞版及Vision智慧屏便携版,其中便携版是10.4寸的,电竞版主打高性能及游戏,,最高75寸,Vis...
日期:10-01
高校男生赤膊摆摊卖手打柠檬茶 现场人气爆棚
5 月 25 日,江南都市报《蜂鸟Video》报道,四川成都一所高校的男生在校园里摆起了手工柠檬茶的摊位,男生们光着上身忙碌着,吸引了众多目光和镜头,网友纷纷感叹:你们真会玩儿流量。...
日期:05-27
2023中国移动全球合作伙伴大会开幕  数字政企领域多项前沿成果获关注
通信世界网消息(CWW)10月11日,中国移动全球合作伙伴大会在广州保利世贸博览馆开幕。在为期三天的展会中,来自全国通信行业的领导者齐聚一堂,探讨影响未来通信行业发展的主要趋势...
日期:10-15
中国移动5g套餐用户数「2023年9月,中国移动5G套餐用户达7.5亿户」
通信世界网消息(CWW)10月20日,中国移动公布2023年9月的客户数据。移动业务客户总数 99,003.1万户,本月净增客户数 355.7万户,本年累计净增客户数 1,502.5万户。5G套餐客户数 75,0...
日期:10-22
14寸巨屏小米平板6 Max 14首发价3599元起
通信世界网消息(CWW)2023 年 8 月 14 日,雷军 2023 年度演讲正式推出全新小米平板 6 Max 14 超大屏平板。小米平板 6 系列发布以来,颇受消费者喜爱,小米平板 6 Max 14 是该系列的...
日期:08-15
比特币涨价概念股「追随股指 比特币价大跌3.4%下破20000美元大关」
加密货币反映了全球市场的情况,在杰罗姆·鲍威尔警告不要过早放松政策后,比特币跌破了过去两周交易的狭窄区间的底端:20000美元。数字资产基金经理Valkyrie Investments的研究...
日期:09-05
改装发动机被交警抓到后果「男子开改装车进境被查!发动机竟藏780个CPU:价值超百万」
快科技8月20日消息,你会选择购买散装CPU吗?散片CPU流出的渠道非常复杂,不少人会以藏匿的方式携带多个CPU进境,殊不知该行为已经违法。今日,据海关发布”微信公众号介绍,近日,拱北...
日期:08-22
京东双11手机销量排行榜在哪里打开「京东双11手机预售 单品销量日榜前三名被Redmi包揽」
10月21日 消息:10月20日,京东商城双11预售活动已经正式开启。目前,京东手机竞速排行榜显示,单品销量日榜前三名已经被Redmi包揽,分别是Redmi K50、Redmi K50至尊版、Redmi K40S...
日期:10-27
新世界新征程 4399游戏盒《英雄远征》新服开启(4399英雄远征官网)
  作为新一代即时制战斗网页游戏代表之作,4399游戏盒网页游戏《英雄远征》以恢宏大气的游戏画面、真实炫丽的技能打斗效果,以及酣畅淋漓的操作快感,与玩家能够痛快的经历一...
日期:07-23
黑科技赋能!望尘科技产品Arena 4D助力咪咕打造世界杯“元宇宙”
卡塔尔世界杯拉开帷幕的第三天,全球足球氛围迎来新高潮。在 2022 年卡塔尔世界杯足球赛的特权转播商咪咕视频App中,热血的“指尖足球”同样受到众多球迷的喜爱。用咪咕视频App...
日期:12-12
蔚来宣布2023年拟新增1000座换电站「蔚来换电站 规划」
2 月 21 日讯:蔚来宣布, 2023 年换电站建设目标将从原定的 400 座提升至 1000 座,到 2023 年累计建成的换电站将超过 2300 座。小米10pro esimlg5g专利...
日期:02-22
天津上线20个助老暖心车站 老年人可一键呼叫出租车_天津老年人免费乘车
  经过5个月的试运行,2月5日,天津市交通运输委员会正式发布“天津出租”。   “天津出租”由天津市交通运输委员会和高德地图合作开发,是天津市的官方出行平台,也是天...
日期:07-16
专利判决受挫,中国智能手机品牌暂时告别德法市场?「2020中国智能手机」
来源:环球时报【环球时报记者 倪浩 环球时报驻德国特约记者 昭东】“在巴黎街头,你会发现一些曾经人头攒动的中国智能手机专卖店暂时关闭了大门。”这是法国《费加罗报》等媒...
日期:08-26
腾讯优图2018三大应用方向梳理 揭秘未来人工智能产业发展趋势
  智东西 文 | 心缘   2018年AI产业波澜丛生,智能化开始深入各行各业,AI落地潮空前火热。腾讯优图实验室在今年的落地潮中表现尤为亮眼,它成立于2012年,专注在图像处理、模...
日期:03-19
董宇辉停播,不卖货了,冲上热搜!原因竟然是......_董宇辉微博
1月12日消息,与辉同行公众号发文称,停播一天,原因为商品不足,没东西卖了。相关话题很快冲上热搜。据悉,1月9日晚上7点,“与辉同行”的首场直播后,直播间开播不到1分钟在线人数迅速...
日期:01-12
由“技术男”到温暖的百度  百度牵手春晚是一次角色大转变
  1月17日,中央广播电视总台与百度联合宣布,百度将作为央视2019年《春节联欢晚会》独家网络互动平台参与今年的春晚红包互动。虽然春晚与企业合作发红包不再是新鲜事,但百度...
日期:12-04
小米ultra拍照怎么样「小米13 Ultra摄影套装出新配色 白色版要来了」
小米手机官方的预热消息,他们宣布将在明天公布一款小米13 Ultra的“新搭档”。从海报来看,可以猜测这款“新搭档”很有可能是指小米13 Ultra的“专业摄影套装”的新配色。消费...
日期:06-26