您的位置:首页 > 互联网

图领域首个通用框架来了!入选ICLR'24 Spotlight,任意数据集、分类问题都可搞定|来自华盛顿大学&北大&京东

发布时间:2024-02-04 23:03:06  来源:互联网     背景:

声明:本文来自于微信公众号 量子位 (ID:QbitAI),作者:丰色,授权转载发布。

能不能有一种通用的图模型——

它既能够根据分子结构预测毒性,又能够给出社交网络的朋友推荐?

或者既能预测不同作者的论文引用,还可以发现基因网络中的人类衰老机制?

你还真别说,被ICLR2024接收为Spotlight的“One for All(OFA)”框架就实现了这个“精髓”。

它由圣路易斯华盛顿大学陈一昕教授团队、北京大学张牧涵以及京东研究院陶大程等研究者们联合提出。

作为图领域首个通用框架,OFA实现了训练单一GNN模型即可解决图领域内任意数据集、任意任务类型、任意场景的分类任务。

具体如何实现,以下为作者投稿。

图领域通用模型设计面临三大难

设计一个通用的基础模型来解决多种任务是人工智能领域的一个长期目标。近年来,基础大语言模型(LLMs)在处理自然语言任务方面表现出色。

然而,在图领域,虽然图神经网络(GNNs)在不同的图数据中都有着不俗的表现,但如何设计与训练一个能同时处理多种图任务的基础图模型依然前路茫茫。

与自然语言领域相比,图领域的通用模型设计面临着许多独有的困难。

首先,区别于自然语言,不同的图数据有着截然不同的属性与分布。

比如分子图描述了多个原子如何通过不同的作用力关系形成不同的化学物质。而引用关系图则描述了文章与文章之间相互引用的关系网。

这些不同的图数据很难被统一在一个训练框架下。

其次,不同于LLMs中所有任务都可以被转化成统一的下文生成任务,图任务包含了多种子任务,比如节点任务,链路任务,全图任务等。

不同的子任务通常需要不同的任务表示形式与不同的图模型。

最后,大语言模型的成功离不开通过提示范式而实现的上下文学习(in-context learning)。

在大语言模型中,提示范式通常为对于下游任务的可读文字描述。

但是对于非结构化且难以用语言描述的图数据,如何设计有效的图提示范式来实现in-context learning依然是个未解之谜。

用“文本图”概念等来解决

下图给出了OFA的整体框架:

具体而言,OFA的团队通过巧妙的设计来解决上述所提到的三个主要问题。

对于不同图数据属性与分布不同的问题,OFA通过提出文本图(Text-Attributed Graph, TAGs)的概念来统一所有图数据。利用文本图,OFA将所有的图数据中的节点信息与边信息用统一的自然语言框架来描述,具体如下图所示:

接着,OFA通过单一LLM模型对所有数据中的文本进行表示学习得到其嵌入向量。

这些嵌入向量将作为图模型的输入特征。这样,来自不同领域的图数据将被映射到相同的特征空间,使得训练一个统一的GNN模型可行。

OFA收集了9个来自不同领域,不同规模的图数据集,包括引用关系图,Web链接图,知识图谱,分子图, 如下图所示:

此外,OFA提出Nodes-of-Interest(NOI)子图与NOI提示节点(NOI Prompt Node)来统一图领域内不同的子任务类型。这里NOI代表参与到相应任务的一组目标节点。

比如,在节点预测任务中,NOI是指需要预测的单个节点;而在链路任务中,NOI包括需要预测链路的两个节点。NOI子图是指围绕着这些NOI节点扩展出的一个包含h-hop邻域的子图。

然后,NOI提示节点为一个新引入的节点类型,直接连接到所有的NOI上。

重要的是,每个NOI提示节点包含了当前任务的描述信息,这些信息以自然语言的形式存在,并和文本图被同一个LLM所表示。

由于NOI中节点所包含的信息在经过GNNs的消息传递后将被NOI提示节点所收集,GNN模型仅需通过NOI提示节点来进行预测。

这样,所有不同的任务类型将拥有统一的任务表示。具体实例如下图所示:

最后,为了实现图领域的in-context learning,OFA引入统一的提示子图。

在一个有监督的k-way分类任务场景下,这个提示子图包含了两类节点:一类是上文提到的NOI提示节点,另一类是代表k个不同类别的类别节点(Class Node)。

每个类别节点的文本将描述此类别的相关信息。

NOI提示节点将会单向连接到所有类别节点上。通过这个方式构建好的图将被输入进图神经网路模型进行消息传递与学习。

最终,OFA将对每个类别节点分别进行二分类任务,并取概率最高的类别节点作为最终的预测结果。

由于类别信息存在于提示子图中,即使遇到全新的分类问题,OFA通过构建相应的提示子图即可直接进行预测而无需任何微调,从而实现了零样本学习。

对于少样本学习场景,一个分类任务将包含一个query输入图和多个support输入图,OFA的提示图范式会将每个support输入图的NOI提示节点与其所对应的类别节点相连,同时将query输入图的NOI提示节点与所有类别节点相连。

后续的预测步骤与上文所述一致。这样每个类别节点将会额外得到support输入图的信息,从而在统一的范式下实现少样本学习。

OFA的主要贡献总结如下:

统一的图数据分布:通过提出文本图并用LLM转化文本信息,OFA实现了图数据的分布对齐与统一。

小米公司的CEO

统一的图任务形式:通过NOI子图与NOI提示节点,OFA实现了多种图领域子任务的统一表示。

统一的图提示范式:通过提出新颖的图提示范式,OFA实现了图领域内的多场景in-context learning。

超强泛化能力

文章在所收集的9个数据集上对OFA框架进行了测试,这些测试覆盖了在有监督学习场景下的十种不同任务,包括节点预测、链路预测和图分类。

实验的目的是验证单一的OFA模型处理多任务的能力,其中作者对比使用不同LLM(OFA-{LLM})和每个任务训练单独模型(OFA-ind-{LLM})的效果。

比较结果如下表所示:

可以看到,基于OFA强大的泛化能力,一个单独的图模型(OFA-st,OFA-e5,OFA-llama2-7b,OFA-llama2-13b)即能够在所有的任务上都具有与传统的单独训练模型(GCN, GAT, OFA-ind-st)相近或更好的表现。

同时,使用更强大的LLM可以带来一定的性能提升。文章进一步绘制了训练完成的OFA模型对于不同任务的NOI提示节点的表示。

可以看到不同的任务被模型嵌入到不同的子空间,从而使得OFA可以对于不同的任务进行分别的学习而不会相互影响。

在少样本以及零样本的场景下,OFA在ogbn-arxiv(引用关系图),FB15K237(知识图谱)以及Chemble(分子图)上使用单一模型进行预训练,并测试其在不同下游任务及数据集上的表现。结果如下:

可以看到,即使在零样本场景下,OFA依旧可以取得不错的效果。综合来看,实验结果很好的验证了OFA强大的通用性能以及其作为图领域基础模型的潜力。

更多研究细节,可参考原论文。

地址:

https://arxiv.org/abs/2310.00149

https://github.com/LechengKong/OneForAll

—完—


返回网站首页

本文评论
游族网络一季度净利润同比增长110%,并发布2019年年度报告(游族网络年报时间)
  4月29日,游族网络发布2019年年报,期内公司实现营业收入32.2亿元,同比下降10.07%,归属于上市公司股东的净利润2.57亿元,同比下降74.58%。业务下滑源于新产品上线较晚,广...
日期:05-06
iqoo谁代言「iQOO成为NBA中国官方合作伙伴 双方签署市场合作协议」
通信世界网消息(CWW)2023年12月25日,iQOO手机正式宣布,与NBA中国在vivo全球总部举办iQOO&NBA赠机仪式,双方共同签署市场合作协议,携手为热血助力,vivo品牌副总裁贾净东出席本次仪式...
日期:12-26
2149元太香了!AMD RX 7600正式发布:最高提速55%「amd rx 6000m」
RTX 4060 Ti正式登场的同时,AMD也推出了自己的RX 7600。这是RDNA3桌面显卡的第三名成员,并且跨过高端市场,直接杀到了主流领域,提前布局阻击将在7月份解禁的RTX 4060。RX 7600的...
日期:05-25
科大讯飞企业介绍「科大讯飞申请“讯飞甄选”商标」
  36氪获悉,天眼查App显示,近日,科大讯飞股份有限公司申请注册多个“讯飞甄选”商标,国际分类为啤酒饮料、社会服务、科学仪器等,目前商标状态均为申请中。辛巴销售20亿特斯拉F...
日期:10-01
2020 CES,搜狗人工智能之路上的一张答卷
  2019年8月28日,搜狗推出升级版AI录音笔C1 Pro。随后三天股价连续收涨,资本市场和投资者也认可了搜狗在AI录音笔上的不断加码。   一只小小的录音笔,究竟有怎样的魔力?...
日期:03-27
雅虎软银为什么投资阿里巴巴_消息称阿里巴巴软银欲携手私募基金完全收购雅虎
  据国外媒体报道,消息人士周二透露,阿里巴巴集团和软银当前正与私募基金进行谈判,准备完全收购雅虎。消息人士透露,一直想要从雅虎手中回购公司股份的阿里巴巴集团和软银,目...
日期:07-24
Snapchat和TikTok将在Pixel 7上提供10-bit HDR视频支持
与去年的 Pixel 6 系智能机相比,本周正式发布的 Pixel 7 系新机带来了诸多改进。对于喜欢在手机上搞创作的人们来说,Pixel 7 / 7 Pro 带来的一个惊喜,就是支持 10-bit HDR 视频...
日期:10-08
开源办公套件LibreOffice 6.4.4维护版本更新发布(libreoffice7.2)
  面向所有支持的桌面平台,文档基金会今天发布了LibreOffice 6.4.4生产力套件更新。由于是第四个维护版本更新,因此并没有引入任何新的功能,主要是对细节上的打磨,修复BUG和...
日期:07-14
月薪5000买苹果12「00后小伙用第一笔工资给爸妈买了两台iPhone 14」
近日,杭州一位00后小伙用转正后的第一笔工资给爸妈买了iPhone 14,在网上引发关注。据悉,小伙今年刚毕业,最近刚到手转正后的第一笔工资,想到父母的手机用了好久都没舍得换,就趁着...
日期:12-21
00后大学生色彩创业之路 用三色激光还原千年珐琅之美
5 月 18 日,海信旗下年轻潮牌Vidda在北京举办新品发布会,一次性发布了三款智能投影全家桶新品。现场,来自广州美术学院数字媒体艺术专业 00 后学生方志烨,现场展示了原创3D Mapp...
日期:05-24
马斯克回复世界首富「马斯克重回世界首富 财富达到2407亿美元」
根据《福布斯》杂志网站24日的报道,该媒体全球亿万富豪实时榜显示,美国亿万富翁、企业家埃隆·马斯克在上周一度被超越后,于本周赶超法国奢侈品巨头LVMH(酩悦·轩尼诗-路易·威...
日期:07-25
surface i9处理器「微软Surface Pro 9正式发布:配备英特尔和ARM处理器 可选5G 还有新颜色」
微软在10月的活动中宣布了其下一代Surface Pro平板电脑,最新机型有几个关键变化,如可选的5G连接和包含ARM处理器机型,新加入充满活力的机身颜色以及更新的配件。Surface Pro 9...
日期:10-18
微软发表白皮书谴责GoogleApps的成本不像谷歌宣传的那样低
  北京时间5月5日消息,据国外媒体报道,微软在发表的一份白皮书中警告称,GoogleApps的成本不像谷歌宣传的那样低。   随着GoogleApps入侵微软的传统领地——企业软件市场,最...
日期:07-27
男子开“电动爹”回东北:200公里充次电 充了14次
今年春运,电动车主直接驱车回家,对人和车都是一个不小的挑战,而老家在东北长白山的特斯拉Model Y车主王坦,决定尝试这次挑战,准备驾车从山东青岛返回东北老家。本田召回事件2018...
日期:01-22
笔记本字母数字切换「笔记本字母数字切换键」
笔记本电脑是现代人必不可少的生活工具之一,而笔记本上的字母数字切换功能也是非常重要的一个功能。笔记本电脑上的键盘设计可以让我们更加轻松地进行敲击,而字母数字切换功能...
日期:05-28
note10 12+512「Note 12 Turbo补货!16G 1TB到手2599元」
Redmi Note 12 Turbo 1TB版一经推出便受到了极大的关注和追捧,供不应求。现在,红米手机已经进行了补货,16GB 1TB版本的售价仅为2599元。redmi k40支持蓝牙5.2吗当贝X3投影距离N...
日期:04-17
男子为减肥每天一顿半年暴瘦30斤 结果无法自行起床:医生提醒科学减肥
如果你想减肥,那么一定不要通过过度节食来实现,因为这样带来的危害太大。近日,湖南长沙30岁的小凯因四肢无力,甚至无法自行起床到院就诊。检查发现其静脉血钾浓度仅为1.72毫摩尔...
日期:07-14
河南矿山回应3名员工各领500万奖金  销售额均在几个亿以上「河南矿山年会奖金」
每个员工各领500万奖金!这么豪的年会你见过吗?近日,河南省矿山起重机有限公司举办年会,40多位员工现场领取6100万元奖金引发关注。据该公司负责宣传的冯先生透露,有三位员工分...
日期:01-30
美股周几跌的概率大「美股周一:三大股指涨跌不一,苹果跌超1%,百度跌逾4%」
4月11日消息,美国时间周一,美股收盘主要股指涨跌不一。投资者预计上周五公布的美国就业数据将促使美联储再次加息,同时等待新的经济数据和企业财报公布。宏光五菱mini ev2021款...
日期:04-11
快手双11,真正的对手是拼多多「快手和拼多多的产品哪个是真的」
声明:本文来自于微信公众号 奇偶派(ID:jioupai),作者 |春晖 编辑 |钊,授权转载发布。双11之战,对于各大电商平台而言,通常都是流量之战,是商家之战,更是GMV(商品交易总额)之战。尤其对...
日期:11-02