您的位置:首页 > 互联网

图领域首个通用框架来了!入选ICLR'24 Spotlight,任意数据集、分类问题都可搞定|来自华盛顿大学&北大&京东

发布时间:2024-02-04 17:29:06  来源:互联网     背景:

声明:本文来自于微信公众号 量子位 (ID:QbitAI),作者:丰色,授权转载发布。

能不能有一种通用的图模型——

它既能够根据分子结构预测毒性,又能够给出社交网络的朋友推荐?

或者既能预测不同作者的论文引用,还可以发现基因网络中的人类衰老机制?

你还真别说,被ICLR2024接收为Spotlight的“One for All(OFA)”框架就实现了这个“精髓”。

它由圣路易斯华盛顿大学陈一昕教授团队、北京大学张牧涵以及京东研究院陶大程等研究者们联合提出。

作为图领域首个通用框架,OFA实现了训练单一GNN模型即可解决图领域内任意数据集、任意任务类型、任意场景的分类任务。

具体如何实现,以下为作者投稿。

图领域通用模型设计面临三大难

跳一跳加分方块

设计一个通用的基础模型来解决多种任务是人工智能领域的一个长期目标。近年来,基础大语言模型(LLMs)在处理自然语言任务方面表现出色。

然而,在图领域,虽然图神经网络(GNNs)在不同的图数据中都有着不俗的表现,但如何设计与训练一个能同时处理多种图任务的基础图模型依然前路茫茫。

与自然语言领域相比,图领域的通用模型设计面临着许多独有的困难。

首先,区别于自然语言,不同的图数据有着截然不同的属性与分布。

比如分子图描述了多个原子如何通过不同的作用力关系形成不同的化学物质。而引用关系图则描述了文章与文章之间相互引用的关系网。

苹果停产型号

这些不同的图数据很难被统一在一个训练框架下。

其次,不同于LLMs中所有任务都可以被转化成统一的下文生成任务,图任务包含了多种子任务,比如节点任务,链路任务,全图任务等。

不同的子任务通常需要不同的任务表示形式与不同的图模型。

国家电网充电桩峰谷电价

最后,大语言模型的成功离不开通过提示范式而实现的上下文学习(in-context learning)。

在大语言模型中,提示范式通常为对于下游任务的可读文字描述。

但是对于非结构化且难以用语言描述的图数据,如何设计有效的图提示范式来实现in-context learning依然是个未解之谜。

用“文本图”概念等来解决

下图给出了OFA的整体框架:

具体而言,OFA的团队通过巧妙的设计来解决上述所提到的三个主要问题。

对于不同图数据属性与分布不同的问题,OFA通过提出文本图(Text-Attributed Graph, TAGs)的概念来统一所有图数据。利用文本图,OFA将所有的图数据中的节点信息与边信息用统一的自然语言框架来描述,具体如下图所示:

接着,OFA通过单一LLM模型对所有数据中的文本进行表示学习得到其嵌入向量。

这些嵌入向量将作为图模型的输入特征。这样,来自不同领域的图数据将被映射到相同的特征空间,使得训练一个统一的GNN模型可行。

OFA收集了9个来自不同领域,不同规模的图数据集,包括引用关系图,Web链接图,知识图谱,分子图, 如下图所示:

此外,OFA提出Nodes-of-Interest(NOI)子图与NOI提示节点(NOI Prompt Node)来统一图领域内不同的子任务类型。这里NOI代表参与到相应任务的一组目标节点。

比如,在节点预测任务中,NOI是指需要预测的单个节点;而在链路任务中,NOI包括需要预测链路的两个节点。NOI子图是指围绕着这些NOI节点扩展出的一个包含h-hop邻域的子图。

然后,NOI提示节点为一个新引入的节点类型,直接连接到所有的NOI上。

重要的是,每个NOI提示节点包含了当前任务的描述信息,这些信息以自然语言的形式存在,并和文本图被同一个LLM所表示。

由于NOI中节点所包含的信息在经过GNNs的消息传递后将被NOI提示节点所收集,GNN模型仅需通过NOI提示节点来进行预测。

这样,所有不同的任务类型将拥有统一的任务表示。具体实例如下图所示:

最后,为了实现图领域的in-context learning,OFA引入统一的提示子图。

在一个有监督的k-way分类任务场景下,这个提示子图包含了两类节点:一类是上文提到的NOI提示节点,另一类是代表k个不同类别的类别节点(Class Node)。

每个类别节点的文本将描述此类别的相关信息。

NOI提示节点将会单向连接到所有类别节点上。通过这个方式构建好的图将被输入进图神经网路模型进行消息传递与学习。

最终,OFA将对每个类别节点分别进行二分类任务,并取概率最高的类别节点作为最终的预测结果。

由于类别信息存在于提示子图中,即使遇到全新的分类问题,OFA通过构建相应的提示子图即可直接进行预测而无需任何微调,从而实现了零样本学习。

对于少样本学习场景,一个分类任务将包含一个query输入图和多个support输入图,OFA的提示图范式会将每个support输入图的NOI提示节点与其所对应的类别节点相连,同时将query输入图的NOI提示节点与所有类别节点相连。

后续的预测步骤与上文所述一致。这样每个类别节点将会额外得到support输入图的信息,从而在统一的范式下实现少样本学习。

OFA的主要贡献总结如下:

统一的图数据分布:通过提出文本图并用LLM转化文本信息,OFA实现了图数据的分布对齐与统一。

统一的图任务形式:通过NOI子图与NOI提示节点,OFA实现了多种图领域子任务的统一表示。

统一的图提示范式:通过提出新颖的图提示范式,OFA实现了图领域内的多场景in-context learning。

超强泛化能力

文章在所收集的9个数据集上对OFA框架进行了测试,这些测试覆盖了在有监督学习场景下的十种不同任务,包括节点预测、链路预测和图分类。

实验的目的是验证单一的OFA模型处理多任务的能力,其中作者对比使用不同LLM(OFA-{LLM})和每个任务训练单独模型(OFA-ind-{LLM})的效果。

比较结果如下表所示:

可以看到,基于OFA强大的泛化能力,一个单独的图模型(OFA-st,OFA-e5,OFA-llama2-7b,OFA-llama2-13b)即能够在所有的任务上都具有与传统的单独训练模型(GCN, GAT, OFA-ind-st)相近或更好的表现。

同时,使用更强大的LLM可以带来一定的性能提升。文章进一步绘制了训练完成的OFA模型对于不同任务的NOI提示节点的表示。

可以看到不同的任务被模型嵌入到不同的子空间,从而使得OFA可以对于不同的任务进行分别的学习而不会相互影响。

在少样本以及零样本的场景下,OFA在ogbn-arxiv(引用关系图),FB15K237(知识图谱)以及Chemble(分子图)上使用单一模型进行预训练,并测试其在不同下游任务及数据集上的表现。结果如下:

可以看到,即使在零样本场景下,OFA依旧可以取得不错的效果。综合来看,实验结果很好的验证了OFA强大的通用性能以及其作为图领域基础模型的潜力。

更多研究细节,可参考原论文。

地址:

https://arxiv.org/abs/2310.00149

https://github.com/LechengKong/OneForAll

—完—


返回网站首页

本文评论
小米十三什么时候发布「小米13现在已经上架 可以预约可能会涨价」
中关村在线消息:今天早上7点,小米官方正式宣布:小米13系列&MIUI 14新品发布会,正式定档12月1日(周四)晚七点。由官方海报可以看出,这次除了重磅新品小米13之外,还有期待已久的MIUI14...
日期:12-04
联想创投宋春雨:未来或迈入大算力竞争时代,计算新架构有望打破算力危机
  讯 12月16日下午消息,由新浪财经客户端、联合主办的“2022科技风云榜”线上年度盛典今日开幕。联想集团副总裁、联想创投高级合伙人宋春雨指出,算力将代表国家的竞争力,纵...
日期:12-16
iPhone11pro值得升ios14「果粉分享:iPhone14 Pro的升级和槽点」
随着每年9月的“科技春晚”的落幕,今年的新款iPhone 也公诸于世。作为果粉的我,也第一时间入手了iPhone 14 Pro 银色版。使用了一段时间沉浸在新机的喜悦同时,来分享一些我对新...
日期:10-16
京东当当“被”推广 木马劫持网购用户为佣金
  1月12日消息,金山网络安全中心截获一款名为“麻雀”的木马,该木马借助一款小游戏“台湾麻将”传播。当用户准备访问淘宝、当当、京东等网购商城时,木马程序会将用户劫持至...
日期:07-25
opporeno11多少钱「朱一龙助阵!OPPO Reno11系列官宣,影像或有大升级」
OPPO Reno系列的外观一直是手机里边轻薄与时尚的代名词,在今年五月份带来的OPPO Reno10系列凭借着轻薄出众的颜值和不俗的人像表现赢得了不少消费者的认可,按照惯例,Reno系列的...
日期:11-16
b站第三季度视频财报「B站公布第三季度财报:营收58.1亿元 日活用户突破一亿」
11月29日 消息:B站公布了截至2023年9月30日的第三季度未经审计的财务报。数据显示,第三季度B站总营收达58.1亿元,与2022年同期持平;净亏损为13亿元,较2022年同期收窄22%;调整后...
日期:11-30
微软浏览器 Edge 97 稳定版发布:全新“引文”功能,方便写论文
  1 月 7 日消息,今日微软 Edge 浏览器迎来了 97 稳定版更新,目前的版本号为 97.0.1072.55。本次更新带来了大量修复和改进,增强了安全性能,此外对大量政策进行了更新。  ...
日期:04-24
自主研发!华为Mate 60 Pro量子密话定制版首次亮相:打电话不怕被监听
快科技11月13日消息,日前,2023数字科技生态大会在广州举行,中电信量子集团首次展示中国电信在量子安全领域新品华为Mate60 Pro量子密话定制终端。据中电信量子”公众号介绍,华为...
日期:11-13
240W屠榜级快充来喽 真我GT-Neo5春节后发布_真我gtneo支持快充
不久前,真我推出了240W满级秒充技术,同时宣布全新的真我GT Neo5将首发搭载该技术,将于2月份正式发布。随着发布时间的日益临近,外界关于该机的爆料也更加密集,截至目前已经有非常...
日期:09-20
华硕推出Hyper M.2 x16 Gen5扩展卡:可装四个PCIe 5.0 SSD_华硕dimm.2扩展卡说明书
快科技10月8日消息,华硕在官网上架了Hyper M.2 x16 Gen5扩展卡,是原有Hyper M.2 x16 Gen4扩展卡的迭代产品,在带宽上实现了翻倍,可达到512 Gbps。据介绍,Hyper M.2 x16 Gen5扩展...
日期:10-09
3ds的3d效果不舒服咋办_28%的3DS用户认为3D功能让游戏更糟糕
  3DS自发售以来问题不断,起初因为首发软件阵容太弱,销售很快陷入低迷,后来又有各种新闻报道称3DS玩多了危害视力、3DS在强光等环境下显示有问题、3DS游戏让人头晕画面有重...
日期:07-23
数据显示苹果App Store应用程序数量已超50万_为什么苹果app数据那么多
5月25日消息,据国外媒体报道,据移动应用博客148apps、搜索公司Chomp以及游戏开发商Chillingo三家公司的搜集数据显示,苹果iOS系统平台的应用程序已超过50万,苹果网上商城Apple...
日期:07-28
覆盖全球!我国自主研发的全球风暴潮、海啸监测预警系统正式上线运行
据央视新闻客户端消息,今天是我国第15个全国防灾减灾日”,在温州洞头的活动上,官方正式发布了全球风暴潮、海啸预警系统。据介绍,全球风暴潮、海啸预警系统可实时获取全球65个沿...
日期:05-13
苹果不能用安卓的充电器头「苹果门店:iPhone 15不能使用安卓充电线 可能会烧机!」
【手机中国新闻】9月13日,苹果的iPhone 15系列正式发布。今年的iPhone 15系列机型有不少升级,尤其是全系采用Type-C接口这一点更是让不少消费者拍手称赞。如今,安卓手机的micro...
日期:09-24
西数My Passport随行SSD体验 「颜值、性能、安全性与便携性并存」「西数随行ssd拆解」
作为一名媒体工作者,过去两年,受制于出行的限制,工作生活基本定在了两点一线。对于存储的需求,基本可以通过家中的NAS来解决。但伴随着放开,参与各类发布会,不停的出差,重又变回了...
日期:09-18
消保委:外卖平台和商家应调整或取消起送价门槛_外卖取消 浪费的时间怎么办
4月3日 消息:今日,针对“限制外卖起送价”一事,江苏省消保委呼吁,外卖平台和商家要从保护消费者权益和反对浪费的要求出发,积极采取相应的措施,比如合理调整乃至取消起送价门槛,同...
日期:04-03
邬祯琳个人资料「邬贺铨:发力互联网平台 ,赋能数字化转型」
通信世界网消息(CWW)互联网平台(也称为数字平台)是数字经济最重要的企业组织形式,在重组全球要素资源、重塑全球经济结构、改变全球竞争格局中扮演着重要的角色。要做强做优做大...
日期:07-19
特斯拉马斯克人脑「一大波特斯拉人形机器人上线,马斯克震撼官宣2款新车!」
声明:本文来自于微信公众号 新智元(ID:AI_era),作者:新智元,授权转载发布。【新智元导读】这次特斯拉股东日,虽没有新车,但马斯克确定Cybertruck今年一定会来。极米属于什么档次特斯...
日期:05-17
会议平板电视等会议室显示新品接二连三,为啥只有皓丽品牌爆款频出?
如今,投影仪、会议平板、小间距LED已经成为会议室的标配产品,成为会议室显示市场的三驾马车。但会议平板对于部分企业来说价格相对较高,如今市面上又出现了一款皓丽创新研发的...
日期:05-23
中国电动汽车电池生产「一张图看懂 | 2022年十大电动汽车电池制造商」
10月9日 消息:预计2019年至2028年间,全球电动汽车 (EV) 电池市场将从170亿美元增长到超过950亿美元。华为2018年手机发货量随着对交通运输行业减碳需求不断增加,为电动汽车提供...
日期:10-15