您的位置:首页 > 互联网

何恺明新作再战AI生成:入职MIT后首次带队,奥赛双料金牌得主邓明扬参与

发布时间:2024-06-24 13:48:22  来源:互联网     背景:

声明:本文来自于微信公众号 量子位 (ID:QbitAI),作者:梦晨 ,授权转载发布。

何恺明入职MIT副教授后,首次带队的新作来了!

让自回归模型抛弃矢量量化,使用连续值生成图像。并借鉴扩散模型的思想,提出Diffusion Loss。

他加入MIT后,此前也参与过另外几篇CV方向的论文,不过都是和MIT教授Wojciech Matusik团队等合作的。

这次何恺明自己带队,参与者中还出现一个熟悉的名字:

邓明扬,IMO、IOI双料奥赛金牌得主,在竞赛圈人称“乖神”。

目前邓明扬MIT本科在读,按入学时间推算现在刚好大四,所以也有不少网友猜测他如果继续在MIT读博可能会加入何恺明团队。

美国对华为中兴

接下来具体介绍一下,这篇论文研究了什么。

借鉴扩散模型,大改自回归生成

传统观点认为,图像生成的自回归模型通常伴随着矢量量化(Vector Quantization),比如DALL·E一代就使用了经典的VQ-VAE方法。

但团队观察到,自回归生成的本质是根据先前的值预测下一个token,这其实与值是离散还是连续没啥必然联系啊。

关键是要对token的概率分布进行建模,只要该概率分布可以通过损失函数来测量并用于从中抽取样本就行。

并且从另一个方面来看,矢量量化方法还会带来一系列麻烦:

  • 需要一个离散的token词表,需要精心设计量化的目标函数,训练困难,对梯度近似策略很敏感

  • 量化误差会带来信息损失,导致还原图像质量打折

  • 离散token适合建模分类分布,有表达能力上的局限

那么有什么更好的替代方法?

何恺明团队选择在损失函数上动刀,借鉴近年大火的扩散模型的思想,提出Diffusion Loss,消除了离散tokenizer的必要性。

如此一来,在连续值空间中应用自回归模型生成图像就可行了。

具体来说,它让自回归模型输出一个潜变量z作为条件,去训练一个小型的去噪MLP网络。

通过反向扩散过程,这个小网络就学会了如何根据z去采样生成连续值的token x。扩散的过程天然能建模任意复杂的分布,所以没有类别分布的局限。

这个去噪网络和自回归模型是端到端联合训练的,链式法则直接把损失传给自回归模型,使其学会输出最佳的条件z。

这篇工作的另一个亮点,是各种自回归模型的变体都适用。它统一了标准的自回归AR、随机顺序的AR、以及何恺明擅长的掩码方法。

其中掩码自回归(MAR)模型,可以在任意随机位置同时预测多个token,同时还能和扩散损失完美配合。

在这个统一的框架下,所有变体要么逐个token预测,要么并行预测一批token,但本质上都是在已知token的基础上去预测未知token,都是广义的自回归模型,所以扩散损失都能适用。

通过消除矢量量化,团队训练的图像生成模型获得了强大的结果,同时享受序列建模的速度优势。

论文在AR、MAR的各种变体上做了大量实验,结果表明扩散损失比交叉熵损失稳定带来2-3倍的提升。

小米11屏幕和索尼

与其他领先模型一比也毫不逊色,小模型都能做到1.98的FID分数,大模型更是创下了1.55的SOTA。

而且它生成256x256图像速度也很快,不到0.3秒一张。这得益于自回归生成本来就很快,比扩散模型少采样很多步,再加上去噪网络又很小。

最后总结一下,这项工作通过自回归建模token间的相关性,再搭配扩散过程对每个token的分布进行建模。

这也有别于普通的潜空间扩散模型中用单个大扩散模型对所有token的联合分布建模,而是做局部扩散,在效果、速度和灵活性上都展现出了巨大的潜力。

当然,这个方法还有进一步探索的空间,团队提出,目前在在某些复杂的几何图形理解任务上还有待提高。

何恺明团队都有谁

最后再来介绍一下即将或可能加入何恺明课题组的团队成员。。

Tianhong LI(黎天鸿),清华姚班校友,MIT博士生在读,将于2024年9月加入何恺明的课题组,担任博士后。

Mingyang Deng(邓明扬),MIT本科数学和计算机科学专业在读。

他在高一获得IMO金牌,高三获得IOI金牌,是竞赛圈为数不多的双料金牌得主,也是IOI历史上第三位满分选手。

目前邓明扬的研究重点是机器学习,特别是理解和推进生成式基础模型,包括扩散模型和大型语言模型。

不过他的个人主页上还没有透露下一步计划。

One More Thing

何恺明当初在MIT的求职演讲备受关注,其中提到未来工作方向会是AI for Science,还引起圈内一阵热议。

现在,何恺明在AI4S方向的参与的首篇论文也来了:强化学习+量子物理学方向。

把Transformer模型用在了动态异构量子资源调度问题上,利用自注意力机制处理量子比特对的序列信息。并在概率性环境中训练强化学习代理,提供动态实时调度指导,最终显著提升了量子系统性能,比基于规则的方法提高了3倍以上。

这样一来,何恺明在自己的成名领域CV和探索新领域AI4S上都没耽误,两开花,两开花。

论文:

https://arxiv.org/abs/2406.11838

参考链接:

[1]https://www.tianhongli.me

[2]https://lambertae.github.io

[3]https://arxiv.org/abs/2405.16380

—完—


返回网站首页

本文评论
从单一服务走向多维深度服务,华为云CDN持续打磨匠心产品
  5G和边缘计算再度诱发国内CDN市场激增   据IDC在之前发布的《2018中国内容分发网络服务市场份额》中指出,我国CDN市场目前呈现四大特点:   整体市场——竞争趋向冷...
日期:01-03
在天猫获超1000万名会员数品牌已超40家「天猫会员人数」
10 月 8 日消息,距离今年天猫双 11 还有一个月。数据显示,在天猫获得超过 1000 万名会员的品牌已超过 40 家。据介绍,会员可以让品牌直接服务消费者,是品牌在天猫双 11 实现确定...
日期:10-10
男子开车看手机撞人下车发现是亲妈:幸好戴头盔、只受轻伤_开车玩手机撞人
10月27日消息,开车上路,需要时刻保持警惕,要知道事故往往就发生在那么一瞬间。近日在浙江湖州,男子陈先生驾车快到家门口时,下意识地低头看了一眼手机,不曾想就这么几秒钟,车子不慎...
日期:10-27
B站:开展苦痛创伤娱乐化及恶搞逝者专项治理
6月21日 消息:今日,B站发布《苦痛创伤娱乐化及恶搞逝者专项治理公告》称,近期,在维护社区创作及互动环境时,发现将他人苦痛创伤娱乐化以及无底线恶搞逝者的行为又有抬头的趋势,例...
日期:06-21
中国天眼探测并构建世界最大的中性氢星系样本_中国天眼中性氢星系巡天
近日,贵州大学贵州射电天文台、中国科学院国家天文台和北京大学的研究团队利用中国天眼巡天数据,构建并释放了世界最大的中性氢星系样本,向全世界的星系与宇宙学研究人员共享了...
日期:12-14
东芝让谁收购了「东芝完成私有化收购 将最快年内退市」
9月24日 消息:根据东芝公司21日的官方声明,由多家日企组成的“日本产业伙伴”投资基金已经完成了对东芝的公开要约收购,持股比例达到78.65%,超过东芝所有表决权的三分之二,满足...
日期:09-24
工信部:加强智能网联汽车数据和网络安全管理「工信部将适时开展智能网联汽车准入试点」
IT之家 9 月 4 日消息,据央视新闻,工业和信息化部装备工业一司副司长郭守刚在中国汽车产业发展国际论坛上表示,下一步我国将发布汽车产业绿色低碳发展路线图;加快制定《道路机动...
日期:09-16
谷歌Stadia云游戏「谷歌将关闭流媒体游戏服务Stadia:标志云游戏尝试失败」
  讯 北京时间9月30日早间消息,据报道,当地时间周四,谷歌承认其围绕云计算重塑游戏行业的尝试失败,并宣布将于明年初关闭Stadia流媒体游戏服务。  在2019年发布Stadia时,谷歌...
日期:10-01
iphone6已经被淘汰了「再见iPhone 6!苹果史上最成功iPhone退休」
苹果今天更新了其复古和过时产品列表,以添加iPhone6,因为自该设备上次上市销售以来,它已经超过五年了。iPhone 6具有独特的发布情况,因此将其添加到列表中的时间有点偏差。iPhon...
日期:10-05
新能源充电电费「新能源刺客:充电费暴涨,油车又香了?」
东风风光580竞争车型作者 |福里斯特 编辑|陆一鸣 题图|《狂飙》7月底,随着国内第15轮油价调整正式到来,每吨汽、柴油价格不出意料地上涨了200元,全国各大城市的加油站前,又挤满...
日期:08-01
iPhone 15或全系搭载4800万像素镜头 标准版再度提升「苹果14多少像素」
【CNMO新闻】根据近几年iPhone的升级规律来看,每年数字系列的iPhone都会采用上一代Pro系列机型的镜头,而按照这样的规律来看,今年包括iPhone 15以及iPhone 15 Plus在内的全系产...
日期:07-29
7499元!红魔8S Pro 手机24GB 1TB氘锋透明版上架_红魔氘锋透明版测评
努比亚红魔 8S Pro 暗夜骑士、冰封银翼、氘锋透明、一诺签名版和大黄蜂五款配色发布。这款手机采用蚀刻工艺,后置 RGB 跑马灯支持自定义灯效。领克01油电混合suv价格配置方面...
日期:09-27
时薪120元 加薪40% 每周工作32小时!美国支持汽车工人罢工 马斯克称巨头会破产
9月27日消息,对于15万美国汽车工人来说,如果不加薪显然没办法复工,而美国总统也支持这样的做法。特斯拉未来科技长城汽车公司最畅销的车型美国总统周二早些时候表示支持美国汽...
日期:09-27
字节豆包是什么?抖音豆包Ai使用入口_字节跳动的包包
豆包是一款智能聊天助手,它可以为用户答疑解惑,提供灵感,辅助创作。无论你想聊天、寻找灵感还是获得问题答案,豆包都能给你帮助。豆包具有自然语言处理和人工智能技术,可以进行智...
日期:10-25
oppo手机x7有几个颜色「OPPO Find X7白色版价格公布:3899元起」
快科技4月26日消息,今天,OPPO Find X7白色版在OPPO商城上架,起售价是3899元。该机提供12GB 256GB、16GB 256GB和16GB 512GB三种选择,将于4月28日正式发售。它搭载联发科天玑9300...
日期:04-27
金山云第三季度总营收19.69亿元 同比下降18.4%「金山云 业绩」
11月24日消息:金山云发布2022年第三季度业绩,实现总营收19.69亿元,同比下降18.4%;净亏损8.01亿元,去年同期为亏损5.07亿元。公有云和行业云分别实现收入13.5亿元和6.2亿元。调...
日期:11-30
大学也有家长群了 家长:非常赞同_大学也有家长群吗?
1月27日消息,据国内多家媒体报道,湖南某大学学院建立家长群,这件事被报道后引发关注。得知建家长群,有学生父母表示非常赞同,他们希望能及时了解孩子在学校的情况。美国有垃圾对...
日期:01-27
坐四十年冷板凳终获诺奖:他们失败,被忽视,但从未放弃_冷板凳选手
·“作为一个女人和一个母亲,我试图告诉其他女科学家,你不必在家庭和事业之间做出选择,你不必过度帮助你的孩子,你的孩子会以你为榜样。”·“20年来,在我们被外界所知晓或关注之...
日期:10-03
AVG:黑客盗用数字签名作案猖獗,以300%速度增长
  AVG实验室发现,从2011年起,尤其是在过去的三个月中,越来越多的黑客用“偷来的”数字签名为恶意软件认证;并且,有的黑客专门负责偷取这些数字证书的签名,然后卖给其他黑客,买到...
日期:07-22
南宁一小学推出作业熔断机制:确保学生获得充足休息_作业熔断机制是什么意思
南宁一所小学规定晚上9:30停止做作业,即使未完成也不会受到老师批评,目的是确保学生获得充足休息。这一熔断机制引发家长热议,有人支持减轻学生负担,认为可以减压,也有人认为治标...
日期:04-03