您的位置:首页 > 互联网

Pika联创参与新研究:Diffusion能抢GPT的活了,成功挑战自回归文本范式

发布时间:2024-04-18 10:31:35  来源:互联网     背景:

声明:本文来自微信公众号“量子位”(ID:QbitAI),作者:关注前沿科技,授权转载发布。

纵观生成式AI领域中的两个主导者:自回归和扩散模型。

一个专攻文本等离散数据,一个长于图像等连续数据。

如果,我们让后者来挑战前者的主场,它能行吗?

斯坦福博士的最新研究,就搞了这么一个扩散模型VS自回归模的同台PK。

结果:

挑战成功!(下面为生成示意图,最后得到的文本是“Hello world,Iam a languagediffusionmodel,namedSEDD”)

并且他们的扩散模型在困惑度和质量上已率先超越自回归的GPT-2。

赶紧来瞧瞧。

扩散模型挑战离散数据

用自回归来处理离散文本数据,即根据之前的token来预测下一个token,这可能是目前我们能想象到的最简单可行的方法。

为什么这么说?

作者在这里用GAN举了个例子:

对于图像生成,GAN首先根据随机噪声生成图像,然后使用判别器来“惩罚”偏差,因此梯度信息可以反向传播到生成器。

但如果我们假设用GAN来生成文本,就行不通了。

因为尽管我们可以定义同样原理的生成器和判别器,但文本的离散性质使得更新生成器非常难。

(图像是连续的,因此可以通过反向传播来计算梯度,但文本是一堆无法区分的离散值,计算梯度信号相当繁琐,基本只能粗略估计)

所以说,文本建模领域基本成了自回归的天下(如transformer的发扬光大就是基于自回归模型)。

不过,这个架构也有根本性的缺陷:

最有名的“批评”来自Lecun,他就认为自回归transformer“注定要失败”,因为生成会“偏离”数据分布并导致模型在采样过程中发散。

除此之外,自回归架构的采样也具有高度迭代性,这对为并行计算而高度优化的GPU来说也不够match。

最后,由于这类架构的模型都是按照从左往右地完成任务,因此一次执行多个控制任务也很困难(例如补充给定了前缀和后缀的文本)。

正是这些缺点促使作者开始构思另一种概率模型,因此有了本文的主角:

分数熵离散扩散模型(SEDD,Score Entropy Discrete Diffusion)。

简单来说,为了将扩散模型扩展到离散空间,就必须将“分数函数”(也就是对数概率的梯度)概念推广到离散空间。

幸运的是,有一种替代方案可以呈现具体分数,即概率的局部比率。

如下图所示,左边为分数函数,它直观地“指向”连续空间中的较高密度区域,具体分数(右)将其推广到离散空间。

这些具体的比率(分数)可以通过得分熵(score entropy)损失函数来学习,从而实现离散扩散模型的快速、可扩展训练。

在这之中,由于作者只知道可以使用得分熵从数据中学习具体得分(对应于学习概率模型),但仍然不知道如何生成样本。

因此还借用了扩散模型的核心思想,并使用学习到的具体分数将随机值迭代地去噪为数据点。

为此,他们还定义了向离散文本样本中“添加噪声”的含义:

对于连续空间,这是通过添加高斯噪声自然产生的,但在离散空间中,则是被迫直接在不同元素之间“跳跃”。

而最终,他们的SEDD模型通过学习将样本不断迭代去噪为文本,完成从纯随机输入生成文本的任务。

超越GPT-2

总的来看,与自回归模型相比,该扩散模型可以在生成过程中利用完整的全局上下文,从而获得更好的整体生成效果。

对比起来,自回归模型特别是像GPT-2这样的会发生“漂移”现象,从而破坏整体性能的稳定性。

并且即使在较小的模型规模下,SEDD也能始终生成高质量的文本(绿框,读者很通顺),而GPT-2就比较困难(红框,一眼看上去就很多错误)。

具体测试中,SEDD在困惑度指标上表现出了很强的竞争力:

此外,作者还发现:

使用更少的采样步骤,SEDD照样在控制生成质量上的表现也比GPT-2要好。

最后,团队以完全零样本的方式从任意位置提示SEDD后发现:

对于标准(从左到右)和非标准(填充)提示方法,SEDD都可以与最好的GPT-2解码方法一较高下。

如下图所示:

提示标记以蓝色表示,不管它在前面中间还是结尾,SEDD都能够生成有意义的文本。

Pika创始人是作者之一

本研究一共3位作者:

一作为斯坦福计算机专业博士生Aaron Lou,康奈尔本科毕业。

二作也是该校博士生Chenlin Meng。

她的名字不算陌生,Pika就是她(下图右)和“学妹”郭文景一起创办的。(Meng2020年入学斯坦福,郭2021年入学)

看起来,一边创业的她也一边兼顾着学业。

最后,通讯作者为一二作的导师Stefano Ermon,他是斯坦福计算机科学系副教授。

论文地址:

华为物联网模块

https://arxiv.org/abs/2310.16834

参考链接:

https://aaronlou.com/blog/2024/discrete-diffusion/

https://twitter.com/aaron_lou/status/1763242384958386306?s=20


返回网站首页

本文评论
小米Poco F5 Pro真机曝光:后摄三模组_小米poco f2 pro价格
有消息称,小米将在近日于全球发布小米Poco F5 系列,新机还没发布,现在Poco F5 Pro 的真机实拍图已经露出。印度载人火箭坠毁外媒报道称,Poco F5 Pro手机拥有纯白配色可选,后置采...
日期:04-10
ai的绘画工具知识「国内AI绘画哪家强?十大免费工具横评,BAT参战,但不是最强」
本文系网易新闻•网易号特色内容激励计划签约账号【智东西】原创内容,未经账号授权,禁止随意转载。距离龙年春节只剩11天了,你的新年头像或红包封面准备好了吗?如果还没有,AI绘画...
日期:01-30
Ace2 Pro首发24GB内存 一加员工:用了就回不去
快科技8月16日消息,今天下午一加就要发布Ace2Pro手机了,号称是首发24GB内存,满足了大家对内存自由的幻想。24GB使用起来到底如何?刚刚一加员工逍遥怪河马表示,体验过就知道,这是...
日期:08-16
QQ 音乐登陆统信 UOS 应用商店_统信UOS系统QQ
  9 月 15 日消息 据统信软件公众号消息,QQ 音乐正式登陆统信 UOS 应用商店。   目前,统信 UOS 专业版、家庭版、社区版(x86 架构)用户均可使用 QQ 音乐。打开统信 UOS...
日期:07-17
AI 导师免费助力托福备考 提高考试成绩
2月8日 消息:近日,该机构对其名为TOEFL TestReady的考试备考平台进行升级,引入人工智能技术为考生提供个性化学习建议。从本月开始,用户可免费获得"定制的学习路径和建议的备考...
日期:02-08
快手官宣开启2023年春节活动:逛庙会、抢红包、办老铁联欢晚会「快手春节红包活动时间」
1月10日消息,近日,快手官宣开启2023年春节活动。以“快手有年味”为主题,从年味内容云庙会、一年零一夜老铁联欢晚会、新春K歌大会、看大片春晚到红包互动玩法、新春直播间相亲...
日期:01-11
一则TikTok视频把苹果副总裁拉下马_Tiktok苹果
  本文转自[枢密院十号];  托尼·布莱文斯是苹果负责采购的副总裁,因为他的粗俗言论在TikTok上疯传而丢了工作。  苹果公司的发言人9月29日向美国CNBC财经网站证实,“托...
日期:10-02
一支笔长什么样「一支笔卖70万,内部复杂的像辆车」
博采网络上市时间提醒:点上方↑↑↑“制造原理”订阅后 满足你的好奇来源:直观学机械 资料源:新设计 视频源:Maxonor创意公元看题目,估计有人就开始疑问了这是一支神马“钢笔”竟...
日期:12-05
中国信通院高琦:工业互联网标识应用规模化发展离不开创新活力
通信世界网消息(CWW)2023年是《工业互联网创新发展行动计划(2021—2023年)》的收官之年,是工业互联网产业承上启下的关键一年。2023年12月13—14日,以“标识贯通千百业,赋能新型...
日期:01-10
华为折叠屏真机亮相 关晓彤代言_华为折叠屏谁生产的
中关村在线消息:今天,华为终于预热了新机Pocket S,在华为公布的预热视频中,代言人关晓彤手持新机向大家作出展示。Pocket S延续了前代机型的经典设计,依旧采用竖向翻折设计,看上去...
日期:10-28
华为海雀智能摄像头pro评测「AWE华为展区内,海雀4K系列摄像头惊艳亮相」
3月14-17日,在2024年中国家电及消费电子博览会(简称AWE)上,华为重磅打造1500平超大展区。作为华为全屋智能的重要视觉入口,华为智选生态产品——海雀4K系列智能摄像头也在展示之...
日期:03-17
谷歌开始新一轮“瘦身”计划 招聘团队全球数百人被裁_谷歌招聘官网
9月14日消息,谷歌已经证实,该公司将在其全球招聘部门裁员数百人,这是未来几个季度裁员计划的一部分。谷歌招聘副总裁布莱恩·王(Brian Ong)在周三的视频会议上对员工说:“不幸的...
日期:09-14
小米双11战报:全渠道支付金额破224亿元_小米双11活动什么时候开始
三言科技 11月12日消息,据小米官方发布的双11战报,该公司截至2023年11月11日23:59:59全渠道支付金额破224亿元创历年大促新纪录。此外,小米14获得了四大平台国产冠军!有利网吴逸...
日期:11-12
2023年上半年中国独角兽增量最多-福布斯_近三年中国独角兽企业最新
【】7月23日消息,据澎湃新闻等报道,福布斯中国集团首席战略官晏格文(Graham Earnshaw)近日在2023长江独角兽峰会上发布了“全球独角兽趋势报告”。iqoo bmw报告数据显示,截至202...
日期:09-20
中兴通讯推出GPT无线AR眼镜  采用与GPT同类的AIGC算法
在日前开幕的上海世界移动通信大会上,中兴通讯展示了一款全新的智能眼镜nubia Neo Air。nubia Neo Air是一款支持语音指令的无线AR眼镜,采用了与GPT同类的AIGC算法。它搭载了...
日期:06-30
最便宜的理想汽车来了!理想L6证件照正式公布:售价20多万
快科技1月15日消息,刚刚,理想L6证件证件照公布。据悉,该车将于2024年4月正式上市,售价杀入20-30万元价位,上市后将挑战3万辆的月销目标。理想L6的定位是家庭智能豪华中型五座SUV...
日期:01-15
Meeting Ultra系列全新视频会议机亮相 可AI捕捉发言者 看到科技Kandao
【】5月17日消息,今日,看到科技2023视频会议机新品品鉴会在北京举行。两款最新的4K AI 360°视频会议一体机产品——Kandao Meeting Ultra和Kandao Meeting Ultra标准版亮相。...
日期:09-28
阿里集团 b类事业群「2023年六大业务集团总计需新招1.5万人,阿里否认大裁员」
5月25日,阿里巴巴发布消息称,2023年六大业务集团总计需新招15000人,其中校招超过3000人。阿里巴巴招聘客服真的假的21款ipad pro 12.9英寸介绍ios14更新一直在准备中vertu唐卡...
日期:09-26
谷歌是一种全文机器人搜索引擎「谷歌人工智能搜索 SGE 带来更多功能:现在可以生成图像、写草稿」
10月13日消息:谷歌宣布其 AI 搜索功能 SGE(Search Generative Experience)正在增加新的功能,从今天开始生效。这一 AI 功能引入了搜索的会话模式,现在将能够直接在 SGE 中使用提...
日期:10-13
中国电信广东地区崩了?客服回应:正在进行抢修_广东电信官方
6月8日下午,许多中国电信广东地区的用户在网络上反映他们所使用的电信卡无法正常工作,无法打电话。相关话题登上了微博热搜榜。面对广东地区电信网络异常的情况,中国电信广东客...
日期:06-09