您的位置:首页 > 互联网

图领域首个通用框架来了!入选ICLR'24 Spotlight,任意数据集、分类问题都可搞定|来自华盛顿大学&北大&京东

发布时间:2024-02-06 05:49:14  来源:互联网     背景:

声明:本文来自于微信公众号 量子位 (ID:QbitAI),作者:丰色,授权转载发布。

能不能有一种通用的图模型——

它既能够根据分子结构预测毒性,又能够给出社交网络的朋友推荐?

或者既能预测不同作者的论文引用,还可以发现基因网络中的人类衰老机制?

你还真别说,被ICLR2024接收为Spotlight的“One for All(OFA)”框架就实现了这个“精髓”。

它由圣路易斯华盛顿大学陈一昕教授团队、北京大学张牧涵以及京东研究院陶大程等研究者们联合提出。

作为图领域首个通用框架,OFA实现了训练单一GNN模型即可解决图领域内任意数据集、任意任务类型、任意场景的分类任务。

具体如何实现,以下为作者投稿。

图领域通用模型设计面临三大难

设计一个通用的基础模型来解决多种任务是人工智能领域的一个长期目标。近年来,基础大语言模型(LLMs)在处理自然语言任务方面表现出色。

iphone换usb-c接口

然而,在图领域,虽然图神经网络(GNNs)在不同的图数据中都有着不俗的表现,但如何设计与训练一个能同时处理多种图任务的基础图模型依然前路茫茫。

与自然语言领域相比,图领域的通用模型设计面临着许多独有的困难。

首先,区别于自然语言,不同的图数据有着截然不同的属性与分布。

比如分子图描述了多个原子如何通过不同的作用力关系形成不同的化学物质。而引用关系图则描述了文章与文章之间相互引用的关系网。

这些不同的图数据很难被统一在一个训练框架下。

其次,不同于LLMs中所有任务都可以被转化成统一的下文生成任务,图任务包含了多种子任务,比如节点任务,链路任务,全图任务等。

不同的子任务通常需要不同的任务表示形式与不同的图模型。

最后,大语言模型的成功离不开通过提示范式而实现的上下文学习(in-context learning)。

在大语言模型中,提示范式通常为对于下游任务的可读文字描述。

但是对于非结构化且难以用语言描述的图数据,如何设计有效的图提示范式来实现in-context learning依然是个未解之谜。

用“文本图”概念等来解决

下图给出了OFA的整体框架:

具体而言,OFA的团队通过巧妙的设计来解决上述所提到的三个主要问题。

对于不同图数据属性与分布不同的问题,OFA通过提出文本图(Text-Attributed Graph, TAGs)的概念来统一所有图数据。利用文本图,OFA将所有的图数据中的节点信息与边信息用统一的自然语言框架来描述,具体如下图所示:

接着,OFA通过单一LLM模型对所有数据中的文本进行表示学习得到其嵌入向量。

这些嵌入向量将作为图模型的输入特征。这样,来自不同领域的图数据将被映射到相同的特征空间,使得训练一个统一的GNN模型可行。

OFA收集了9个来自不同领域,不同规模的图数据集,包括引用关系图,Web链接图,知识图谱,分子图, 如下图所示:

此外,OFA提出Nodes-of-Interest(NOI)子图与NOI提示节点(NOI Prompt Node)来统一图领域内不同的子任务类型。这里NOI代表参与到相应任务的一组目标节点。

比如,在节点预测任务中,NOI是指需要预测的单个节点;而在链路任务中,NOI包括需要预测链路的两个节点。NOI子图是指围绕着这些NOI节点扩展出的一个包含h-hop邻域的子图。

然后,NOI提示节点为一个新引入的节点类型,直接连接到所有的NOI上。

重要的是,每个NOI提示节点包含了当前任务的描述信息,这些信息以自然语言的形式存在,并和文本图被同一个LLM所表示。

由于NOI中节点所包含的信息在经过GNNs的消息传递后将被NOI提示节点所收集,GNN模型仅需通过NOI提示节点来进行预测。

这样,所有不同的任务类型将拥有统一的任务表示。具体实例如下图所示:

最后,为了实现图领域的in-context learning,OFA引入统一的提示子图。

在一个有监督的k-way分类任务场景下,这个提示子图包含了两类节点:一类是上文提到的NOI提示节点,另一类是代表k个不同类别的类别节点(Class Node)。

每个类别节点的文本将描述此类别的相关信息。

NOI提示节点将会单向连接到所有类别节点上。通过这个方式构建好的图将被输入进图神经网路模型进行消息传递与学习。

最终,OFA将对每个类别节点分别进行二分类任务,并取概率最高的类别节点作为最终的预测结果。

由于类别信息存在于提示子图中,即使遇到全新的分类问题,OFA通过构建相应的提示子图即可直接进行预测而无需任何微调,从而实现了零样本学习。

对于少样本学习场景,一个分类任务将包含一个query输入图和多个support输入图,OFA的提示图范式会将每个support输入图的NOI提示节点与其所对应的类别节点相连,同时将query输入图的NOI提示节点与所有类别节点相连。

后续的预测步骤与上文所述一致。这样每个类别节点将会额外得到support输入图的信息,从而在统一的范式下实现少样本学习。

OFA的主要贡献总结如下:

统一的图数据分布:通过提出文本图并用LLM转化文本信息,OFA实现了图数据的分布对齐与统一。

统一的图任务形式:通过NOI子图与NOI提示节点,OFA实现了多种图领域子任务的统一表示。

统一的图提示范式:通过提出新颖的图提示范式,OFA实现了图领域内的多场景in-context learning。

超强泛化能力

信服官网

文章在所收集的9个数据集上对OFA框架进行了测试,这些测试覆盖了在有监督学习场景下的十种不同任务,包括节点预测、链路预测和图分类。

实验的目的是验证单一的OFA模型处理多任务的能力,其中作者对比使用不同LLM(OFA-{LLM})和每个任务训练单独模型(OFA-ind-{LLM})的效果。

比较结果如下表所示:

可以看到,基于OFA强大的泛化能力,一个单独的图模型(OFA-st,OFA-e5,OFA-llama2-7b,OFA-llama2-13b)即能够在所有的任务上都具有与传统的单独训练模型(GCN, GAT, OFA-ind-st)相近或更好的表现。

同时,使用更强大的LLM可以带来一定的性能提升。文章进一步绘制了训练完成的OFA模型对于不同任务的NOI提示节点的表示。

pico neo3 vr一体机购买群体

可以看到不同的任务被模型嵌入到不同的子空间,从而使得OFA可以对于不同的任务进行分别的学习而不会相互影响。

在少样本以及零样本的场景下,OFA在ogbn-arxiv(引用关系图),FB15K237(知识图谱)以及Chemble(分子图)上使用单一模型进行预训练,并测试其在不同下游任务及数据集上的表现。结果如下:

可以看到,即使在零样本场景下,OFA依旧可以取得不错的效果。综合来看,实验结果很好的验证了OFA强大的通用性能以及其作为图领域基础模型的潜力。

更多研究细节,可参考原论文。

地址:

https://arxiv.org/abs/2310.00149

https://github.com/LechengKong/OneForAll

—完—


返回网站首页

本文评论
马斯克今天在推特说什么「马斯克要求推特全员签奋斗保证书:不签字就拿钱离开」
11月16日消息,美国当地时间周三,推特新老板埃隆·马斯克(Elon Musk)向这家社交媒体公司的员工发出最后通牒:要么致力于帮助打造新的“硬核”推特,要么以领取遣散费的形式离开公司...
日期:11-25
中国移动智算中心(呼和浩特)入选2023年度央企十大超级工程_移动数智公司
通信世界网消息(CWW)1月2日,由“国资小新”联合国务院国资委网站、《国资报告》杂志推出的“2023年度央企十大超级工程”揭晓,作为在建的全球运营商最大单体智算中心,中国移动智...
日期:01-04
雷军称小米13在安卓旗舰中独树一帜!米粉:确实好用_小米十一雷军
今日消息,小米创办人雷军表示,小米13强调体验优先、设计优先、手感优化,不仅仅是参数,在安卓旗舰中独树一帜。在这条微博下,一位米粉晒出了他刚刚入手的小米13,称确实好用”。英特...
日期:01-14
抖in品类日联动ChinaJoy,用新玩法连接品牌与用户
  在全球电竞行业蓬勃发展的今天,游戏已深入人们的生活,甚至也成为了Z世代后浪们的一种社交语言和生活方式,而由此衍生出的电竞数码产品市场则呈现出爆发式的增长。尽管电竞...
日期:04-09
三星将在Galaxy S24系列智能手机中使用电池堆叠技术「s20三星电池容量」
三星将在即将推出的Galaxy S24系列智能手机中使用电池堆叠技术。与传统的“缠绕”方法相比,该技术减少了电池膨胀,提高了安全性。在相同重量和体积下,它还将电池容量增加10%。...
日期:04-26
苹果暂停新产品发布 静等Lion和iCloud发布
(林靖东)北京时间6月17日消息,据国外媒体报道,为了宣传即将推出的Mac OS X Lion操作系统的性能优势,苹果已经暂时停止发布Mac新产品。在新操作系统软件正式发布前,苹果至少推迟了...
日期:07-30
视觉中国侵权图片多少钱「自己拍摄的照片被视觉中国告侵权 赔偿8万多!视觉中国回应」
快科技8月15日消息,微博博主@Jeff的星空之旅 ”发文,称自己拍摄的照片,被视觉中国致电称是侵权使用,还被要求赔偿8万余元。当事人戴先生表示,这些照片都是他自己陆续拍的,最早的是...
日期:08-15
外媒曝亚马逊将大裁17000人 或是大型科技公司最大规模裁员_美国27家大公司裁员超10万人
中关村在线消息:据外媒《华尔街日报》的报道,美国电子商务公司亚马逊正计划裁员超过17000人,这个数字已经大幅高于最初计划的数字。亚马逊即将大规模裁员的消息最早于2022年11...
日期:01-05
采用钛金属扁平中框设计 「三星Galaxy」-S24 Ultra渲染图曝光
年初,全新的三星Galaxy S23系列发布,包含Galaxy S23、Galaxy S23+和Galaxy S23 Ultra三个版本,全系搭载超频版骁龙8 Gen 2,极限性能更强。随着新一代旗舰芯片骁龙8 Gen3芯片即将...
日期:09-10
成都买特斯拉「成都车主“0元购”引热议 此前还有维权车主要平分特斯拉股权」
刚买新车就降价,提前提车一天亏了几万,要是你的话,你会选择去维权吗?1月6日,特斯拉旗下所有车型改款上市,售价也大幅下调。其中,Model 3后驱降价3万6,高性能降价2万。Model Y后驱降...
日期:01-08
《暗黑破坏神4》正式发售:标准版终于能玩了_暗黑破坏神4公测:暗黑破坏神4啥时候发行啊
快科技6月6日消息,经历了两天的先行体验,《暗黑破坏神4》终于在今天正式发售,购买标准版的玩家也终于得以再次踏入庇护之地。根据目前玩家社区反馈的信息,《暗黑4》正式发售的版...
日期:06-06
TikTok 推出 AI 生成内容披露功能,以防止内容被删除
8月10日 消息:短视频应用 TikTok 似乎正在努力使创作者更容易披露他们的内容是否由人工智能生成。根据社交媒体顾问 Matt Navarra 的分享,上传视频前,在 “更多选项” 部分下...
日期:08-10
ChatGPT“周岁考”:微软发飙,谷歌磨刀
声明:本文来自于微信公众号锌刻度(ID:znkedu),作者:陈邓新,授权转载发布。ChatGPT,来到命运的十字路口。2022年11月30日,OpenAI旗下的ChatGPT正式上线,瞬间燃爆全球互联网,拉开了生...
日期:11-24
LLaMA核心原作多半离职,Meta AI内幕曝光!算力争夺撕破脸,大模型团队成员连换三轮
声明:本文来自于微信公众号 新智元(ID:AI_era),作者:新智元,授权转载发布。【新智元导读】Meta内部上演了最戏剧性的一幕,算力短缺纷争不断,LLaMA核心作者超半数已经离职。甚至,连...
日期:09-06
京东报告:2022年员工总数超54万人 是员工数量最多的民营企业_京东集团员工人数2020
12月30日 消息:今日,京东发布来2022年“数”职报告。报告称,据不完全统计,仅上半年在支援上海、北京等全国各地抗疫保供期间,京东累计投入及商家减免费用20亿元,京东物流运送物资...
日期:12-30
调查显示逾六成用户不了解Wi-Fi安全隐私设置_Wi-Fi不安全
  10月10日早间消息,据调查机构Wakefield Research最近发布的一项调查报告显示,Wi-Fi使用者对其安全性缺乏必要了解,这将使得Wi-Fi网络存在极大的安全隐患。   该报告显示...
日期:07-23
马斯克要“大赦”推特:让被封账号都回归「马斯克新推特」
凤凰网科技讯 北京时间11月24日消息,推特新老板埃隆马斯克(Elon Musk)已经解封了美国前总统特朗普的账户,但是他似乎还不满足。周三,他再次发起线上民意调查,想要在推特上发布“...
日期:11-25
Stable diffusion哪里可以下载免费的Model 免费模型下载地址
Stable diffusion通过模型可以节省下很多时间来创作,那么有哪些地方可以下载到免费的Model模型,对于大多数的用户而言,在国外已经有比较成熟且丰富的模型提供网站,这里我们来看...
日期:03-23
田玉龙:发力科技创新是推进新型工业化的重要驱动力_田玉龙127岁
通信世界网消息(CWW)12月18日,工业和信息化部原党组成员、总工程师,工业互联网战略咨询委员会副主任委员田玉龙出席2023广州国际创新节开幕式并表示要继续发力科技创新,这是推进...
日期:12-20
四维图新:时空智能技术成为推动城市数字化转型的新兴力量
通信世界网消息(CWW)近年来,随着技术的不断进步,智慧城市的数字化转型已成为城市发展的重要趋势。在这一过程中,时空智能技术以其独特的优势,正在为智慧城市的建设提供全新的解决...
日期:09-21