您的位置:首页 > 互联网

图领域通用框架来了!入选ICLR'24 Spotlight,任意数据集、分类问题都可搞定|来自华盛顿大学&北大&京东

发布时间:2024-02-10 15:29:41  来源:互联网     背景:

声明:本文来自于微信公众号 量子位 (ID:QbitAI),作者:丰色,授权转载发布。

能不能有一种通用的图模型——

它既能够根据分子结构预测毒性,又能够给出社交网络的朋友推荐?

或者既能预测不同作者的论文引用,还可以发现基因网络中的人类衰老机制?

你还真别说,被ICLR2024接收为Spotlight的“One for All(OFA)”框架就实现了这个“精髓”。

它由圣路易斯华盛顿大学陈一昕教授团队、北京大学张牧涵以及京东研究院陶大程等研究者们联合提出。

作为图领域首个通用框架,OFA实现了训练单一GNN模型即可解决图领域内任意数据集、任意任务类型、任意场景的分类任务。

三星s20 hdr10

具体如何实现,以下为作者投稿。

图领域通用模型设计面临三大难

设计一个通用的基础模型来解决多种任务是人工智能领域的一个长期目标。近年来,基础大语言模型(LLMs)在处理自然语言任务方面表现出色。

然而,在图领域,虽然图神经网络(GNNs)在不同的图数据中都有着不俗的表现,但如何设计与训练一个能同时处理多种图任务的基础图模型依然前路茫茫。

与自然语言领域相比,图领域的通用模型设计面临着许多独有的困难。

首先,区别于自然语言,不同的图数据有着截然不同的属性与分布。

比如分子图描述了多个原子如何通过不同的作用力关系形成不同的化学物质。而引用关系图则描述了文章与文章之间相互引用的关系网。

这些不同的图数据很难被统一在一个训练框架下。

其次,不同于LLMs中所有任务都可以被转化成统一的下文生成任务,图任务包含了多种子任务,比如节点任务,链路任务,全图任务等。

不同的子任务通常需要不同的任务表示形式与不同的图模型。

最后,大语言模型的成功离不开通过提示范式而实现的上下文学习(in-context learning)。

在大语言模型中,提示范式通常为对于下游任务的可读文字描述。

但是对于非结构化且难以用语言描述的图数据,如何设计有效的图提示范式来实现in-context learning依然是个未解之谜。

用“文本图”概念等来解决

下图给出了OFA的整体框架:

具体而言,OFA的团队通过巧妙的设计来解决上述所提到的三个主要问题。

对于不同图数据属性与分布不同的问题,OFA通过提出文本图(Text-Attributed Graph, TAGs)的概念来统一所有图数据。利用文本图,OFA将所有的图数据中的节点信息与边信息用统一的自然语言框架来描述,具体如下图所示:

接着,OFA通过单一LLM模型对所有数据中的文本进行表示学习得到其嵌入向量。

这些嵌入向量将作为图模型的输入特征。这样,来自不同领域的图数据将被映射到相同的特征空间,使得训练一个统一的GNN模型可行。

OFA收集了9个来自不同领域,不同规模的图数据集,包括引用关系图,Web链接图,知识图谱,分子图, 如下图所示:

此外,OFA提出Nodes-of-Interest(NOI)子图与NOI提示节点(NOI Prompt Node)来统一图领域内不同的子任务类型。这里NOI代表参与到相应任务的一组目标节点。

比如,在节点预测任务中,NOI是指需要预测的单个节点;而在链路任务中,NOI包括需要预测链路的两个节点。NOI子图是指围绕着这些NOI节点扩展出的一个包含h-hop邻域的子图。

然后,NOI提示节点为一个新引入的节点类型,直接连接到所有的NOI上。

重要的是,每个NOI提示节点包含了当前任务的描述信息,这些信息以自然语言的形式存在,并和文本图被同一个LLM所表示。

由于NOI中节点所包含的信息在经过GNNs的消息传递后将被NOI提示节点所收集,GNN模型仅需通过NOI提示节点来进行预测。

这样,所有不同的任务类型将拥有统一的任务表示。具体实例如下图所示:

最后,为了实现图领域的in-context learning,OFA引入统一的提示子图。

在一个有监督的k-way分类任务场景下,这个提示子图包含了两类节点:一类是上文提到的NOI提示节点,另一类是代表k个不同类别的类别节点(Class Node)。

每个类别节点的文本将描述此类别的相关信息。

NOI提示节点将会单向连接到所有类别节点上。通过这个方式构建好的图将被输入进图神经网路模型进行消息传递与学习。

最终,OFA将对每个类别节点分别进行二分类任务,并取概率最高的类别节点作为最终的预测结果。

由于类别信息存在于提示子图中,即使遇到全新的分类问题,OFA通过构建相应的提示子图即可直接进行预测而无需任何微调,从而实现了零样本学习。

对于少样本学习场景,一个分类任务将包含一个query输入图和多个support输入图,OFA的提示图范式会将每个support输入图的NOI提示节点与其所对应的类别节点相连,同时将query输入图的NOI提示节点与所有类别节点相连。

后续的预测步骤与上文所述一致。这样每个类别节点将会额外得到support输入图的信息,从而在统一的范式下实现少样本学习。

OFA的主要贡献总结如下:

统一的图数据分布:通过提出文本图并用LLM转化文本信息,OFA实现了图数据的分布对齐与统一。

统一的图任务形式:通过NOI子图与NOI提示节点,OFA实现了多种图领域子任务的统一表示。

统一的图提示范式:通过提出新颖的图提示范式,OFA实现了图领域内的多场景in-context learning。

超强泛化能力

文章在所收集的9个数据集上对OFA框架进行了测试,这些测试覆盖了在有监督学习场景下的十种不同任务,包括节点预测、链路预测和图分类。

实验的目的是验证单一的OFA模型处理多任务的能力,其中作者对比使用不同LLM(OFA-{LLM})和每个任务训练单独模型(OFA-ind-{LLM})的效果。

比较结果如下表所示:

可以看到,基于OFA强大的泛化能力,一个单独的图模型(OFA-st,OFA-e5,OFA-llama2-7b,OFA-llama2-13b)即能够在所有的任务上都具有与传统的单独训练模型(GCN, GAT, OFA-ind-st)相近或更好的表现。

同时,使用更强大的LLM可以带来一定的性能提升。文章进一步绘制了训练完成的OFA模型对于不同任务的NOI提示节点的表示。

可以看到不同的任务被模型嵌入到不同的子空间,从而使得OFA可以对于不同的任务进行分别的学习而不会相互影响。

在少样本以及零样本的场景下,OFA在ogbn-arxiv(引用关系图),FB15K237(知识图谱)以及Chemble(分子图)上使用单一模型进行预训练,并测试其在不同下游任务及数据集上的表现。结果如下:

可以看到,即使在零样本场景下,OFA依旧可以取得不错的效果。综合来看,实验结果很好的验证了OFA强大的通用性能以及其作为图领域基础模型的潜力。

更多研究细节,可参考原论文。

地址:

https://arxiv.org/abs/2310.00149

https://github.com/LechengKong/OneForAll

—完—


返回网站首页

本文评论
WinPhone7应用已超1万 增速超苹果Android(Windowsphone7)
  3月15日消息,据国外媒体报道,自从微软在去年秋季推出Windows Phone 7操作系统以来,该款操作系统便赢得了许多粉丝,现在由这款操作系统所支持的一系列手机又拥有了更多软件...
日期:07-26
iPhone 14 Plus京东减1000 官方5999「苹果12京东降价900」
iPhone14 Plus现在立减1000元了,正式开启今年的双11大促,目前已经从6999元降到了5999元,早在本月初iPhone 14 P路上首销当日就立减500元,现在京东联通等一些官方的自营店已经可...
日期:10-30
极氪X官宣4月12日上市:全能SUV 零百加速3秒级「极氪介绍」
快科技4月10日从极氪官微获悉,极氪X将于4月12日正式上市。极氪X是继极氪001、极氪009之后,极氪旗下的第三款车,售价有望在20万元。外观造型方面,产品设计由史蒂芬西拉夫(Stefan S...
日期:04-10
小米air2se耳机使用教程「小米air2」
小米Air 2 是小米旗下的一款真无线耳机,也称为小米True Wireless Earphones 2。该耳机采用了小米第二代真无线音频技术和双声道传输技术,具有更快的音频传输速度和更稳定的连...
日期:05-29
中国发现1.9亿年前50枚恐龙蛋:中国最早、世界最早_中国发现恐龙蛋最多的地方
据国内媒体报道,最近在贵州省安顺市平坝区,我国科学家发现了1.9亿年前罗纪早期的恐龙化石群,其中包含至少三只成年恐龙、五窝共计约50枚胚胎蛋。这是中国发现的最早的恐龙蛋窝,...
日期:11-10
碟中谍7 电影「系列收尾作!《碟中谍7》内地正式定档:7月14日上映」
快科技6月13日消息,日前《碟中谍 7:致命清算(上)》官宣引进内地之后,又火速定档了。华为手表刷机根据官方消息,该片将于7月14日在内地上映,比北美市场晚了2天时间。同时,中字的定档...
日期:06-13
法拉利v12车型「V12动力加身 法拉利SUV国内发布定档:移动的几百万来了!」
近日消息,快科技从相关渠道获悉,法拉利首款SUV车型Purosangue将于10月24日在国内正式亮相,该车此前在9月14日全球首发,但需要注意的是,新车在法拉利内部不被定义为SUV车型,而是FUV...
日期:10-21
三星下一代旗舰 Galaxy S24 系列或将提前发布,加入众多先进 AI 功能_三星s22下一代什么时候出
11 月 23 日消息:韩国媒体 The Elec 最新报告称,三星下一代旗舰产品 Galaxy S24 将于 2024 年 1 月 17 日正式发布,并于次日开始接受预订。该系列的发布会将在加利福尼亚州圣...
日期:11-23
折叠屏:手机市场的强心剂还是长生果?
  2019年的MWC是非凡的,用NBA的概念来说,这是一个“选秀大年”。今年的高顺位新秀分别有“5G”、“消费类IoT”、“折叠屏”等,这几名新秀或将改变未来几年互联网行业的发展...
日期:07-03
ipados公测版「苹果iPadOS 16.1开发者预览版Beta发布」
IT之家 8 月 24 日消息,苹果今天面向开发人员发布了 iPadOS 16.1 Beta 测试版,该软件与今天提供的标准 iOS 16 开发者预览版 Beta 7 一起提供。全球市场份额IT之家获悉,苹果已...
日期:09-04
全网打卡淄博烧烤:短视频造神、社交平台种草和网红城市的网感
声明:本文来自于微信公众号全媒派(ID:quanmeipai),作者:晏青,授权转载发布。最近,淄博成为国内一众网红城市中的“顶流”。各路大V、媒体、游客纷纷发布打卡淄博烧烤的短视频,不仅...
日期:04-21
理想汽车着火「理想汽车回应理想ONE起火事件:已有消防部门介入调查」
雷递网 乐天 8月5日报道二手车电商发展观点微软office发布时间理想汽车昨日就2022年8月1日成都理想ONE起火事件做出说明,称理想汽车与车主保持联系,并在合法合理的范围内提供...
日期:09-10
更美APP回应明星起诉:已与伊能静等达成和解(更美APP遭多位明星起诉)
  近日,互联网医美平台更美APP所在的北京完美创意科技有限公司遭伊能静 、刘诗诗起诉,案由为网络侵权责任纠纷。   7月13日更美APP回应称:更美公众号的初衷是希望通俗...
日期:07-14
旗袍店主播多次嘲讽50岁阿姨被开除 品牌方道歉_旗袍阿姨:怀揣着名媛梦,掏的是冤枉钱
根据陕西网“白鹿视频”的报道,最近,在山东,一位女士说她的母亲在“尘记旗袍”的直播间咨询“50岁适合穿什么样的”时,被女主播讥笑并拉黑。直播视频里,该女主播说“有这样一个妈...
日期:10-22
天下第一条凶猛雀鳝鱼类现身云南:2亿年前的祖先长这样 仅拇指长
10月22日消息,中科院古脊椎所在云南省曲靖市罗平县中三叠世(约2.44亿年前)海相地层发现一种新的古鱼类,命名为圆尾滇东鱼。新命名的圆尾滇东鱼化石共有13块,是在2008年以来的罗平...
日期:10-22
2021春节档影片总票房榜「2023年春节档新片预售总票房已突破6亿元」
1月21日 消息:据灯塔专业版实时数据,截至1月21日9时25分,2023年春节档新片预售总票房破6亿元。《满江红》《流浪地球2》《无名》分列预售票房榜前三位。此外,灯塔专业版数据显...
日期:01-22
消费恢复趋势观察报告:五一奶茶店人气暴增,相比清明节客流翻倍!
  国内新冠疫情防控成效显著,经济秩序正逐步恢复,被暂停的线下消费场景已经重启。友盟+联合高德地图、银泰百货等合作伙伴,洞察线上线下行为大数据,探究消费恢复的趋势,...
日期:07-14
拆解“新阿里”的商业套娃
头图|视觉中国   作者|Eastland   2022年7月26日,阿里(NYSE:BABA;HK:09988)发布了《2022财年年报》;八天后(8月4日)发布《2022年6月底季度业绩》。   年报看格局、季报看趋势, 让...
日期:08-10
比亚迪海豹DM-i上市:总续航1300公里 售价16.68万元起
【网易科技9月6日报道】今日,由比亚迪海洋网推出的海豹DM-i上市,新车共6款车型,售价为16.68万-23.68万元。据介绍,此款新车是基于全新DM-i超级混动中型车平台打造,车身尺寸为4980...
日期:09-07
亚马逊面向企业的 AI 聊天机器人 Amazon Q 或存在严重幻觉和数据泄露问题引发质疑
12 月 5 日消息:在发布不到一周后,Amazon Q —— 亚马逊对抗 Copilot 的生成式 AI 助手——已面临生存威胁,一份新报告显示这款 AI 助手可能产生严重幻觉。据 The Platformer...
日期:12-05