您的位置:首页 > 互联网

图领域首个通用框架来了!入选ICLR'24 Spotlight,任意数据集、分类问题都可搞定|来自华盛顿大学&北大&京东

发布时间:2024-02-06 05:15:32  来源:互联网     背景:

声明:本文来自于微信公众号 量子位 (ID:QbitAI),作者:丰色,授权转载发布。

荣耀80pro发布

能不能有一种通用的图模型——

它既能够根据分子结构预测毒性,又能够给出社交网络的朋友推荐?

或者既能预测不同作者的论文引用,还可以发现基因网络中的人类衰老机制?

你还真别说,被ICLR2024接收为Spotlight的“One for All(OFA)”框架就实现了这个“精髓”。

它由圣路易斯华盛顿大学陈一昕教授团队、北京大学张牧涵以及京东研究院陶大程等研究者们联合提出。

作为图领域首个通用框架,OFA实现了训练单一GNN模型即可解决图领域内任意数据集、任意任务类型、任意场景的分类任务。

具体如何实现,以下为作者投稿。

图领域通用模型设计面临三大难

设计一个通用的基础模型来解决多种任务是人工智能领域的一个长期目标。近年来,基础大语言模型(LLMs)在处理自然语言任务方面表现出色。

然而,在图领域,虽然图神经网络(GNNs)在不同的图数据中都有着不俗的表现,但如何设计与训练一个能同时处理多种图任务的基础图模型依然前路茫茫。

与自然语言领域相比,图领域的通用模型设计面临着许多独有的困难。

首先,区别于自然语言,不同的图数据有着截然不同的属性与分布。

比如分子图描述了多个原子如何通过不同的作用力关系形成不同的化学物质。而引用关系图则描述了文章与文章之间相互引用的关系网。

这些不同的图数据很难被统一在一个训练框架下。

其次,不同于LLMs中所有任务都可以被转化成统一的下文生成任务,图任务包含了多种子任务,比如节点任务,链路任务,全图任务等。

不同的子任务通常需要不同的任务表示形式与不同的图模型。

最后,大语言模型的成功离不开通过提示范式而实现的上下文学习(in-context learning)。

在大语言模型中,提示范式通常为对于下游任务的可读文字描述。

但是对于非结构化且难以用语言描述的图数据,如何设计有效的图提示范式来实现in-context learning依然是个未解之谜。

用“文本图”概念等来解决

下图给出了OFA的整体框架:

具体而言,OFA的团队通过巧妙的设计来解决上述所提到的三个主要问题。

对于不同图数据属性与分布不同的问题,OFA通过提出文本图(Text-Attributed Graph, TAGs)的概念来统一所有图数据。利用文本图,OFA将所有的图数据中的节点信息与边信息用统一的自然语言框架来描述,具体如下图所示:

接着,OFA通过单一LLM模型对所有数据中的文本进行表示学习得到其嵌入向量。

这些嵌入向量将作为图模型的输入特征。这样,来自不同领域的图数据将被映射到相同的特征空间,使得训练一个统一的GNN模型可行。

OFA收集了9个来自不同领域,不同规模的图数据集,包括引用关系图,Web链接图,知识图谱,分子图, 如下图所示:

此外,OFA提出Nodes-of-Interest(NOI)子图与NOI提示节点(NOI Prompt Node)来统一图领域内不同的子任务类型。这里NOI代表参与到相应任务的一组目标节点。

比如,在节点预测任务中,NOI是指需要预测的单个节点;而在链路任务中,NOI包括需要预测链路的两个节点。NOI子图是指围绕着这些NOI节点扩展出的一个包含h-hop邻域的子图。

然后,NOI提示节点为一个新引入的节点类型,直接连接到所有的NOI上。

重要的是,每个NOI提示节点包含了当前任务的描述信息,这些信息以自然语言的形式存在,并和文本图被同一个LLM所表示。

由于NOI中节点所包含的信息在经过GNNs的消息传递后将被NOI提示节点所收集,GNN模型仅需通过NOI提示节点来进行预测。

这样,所有不同的任务类型将拥有统一的任务表示。具体实例如下图所示:

最后,为了实现图领域的in-context learning,OFA引入统一的提示子图。

在一个有监督的k-way分类任务场景下,这个提示子图包含了两类节点:一类是上文提到的NOI提示节点,另一类是代表k个不同类别的类别节点(Class Node)。

每个类别节点的文本将描述此类别的相关信息。

NOI提示节点将会单向连接到所有类别节点上。通过这个方式构建好的图将被输入进图神经网路模型进行消息传递与学习。

amdrx7000显卡发布时间

最终,OFA将对每个类别节点分别进行二分类任务,并取概率最高的类别节点作为最终的预测结果。

由于类别信息存在于提示子图中,即使遇到全新的分类问题,OFA通过构建相应的提示子图即可直接进行预测而无需任何微调,从而实现了零样本学习。

对于少样本学习场景,一个分类任务将包含一个query输入图和多个support输入图,OFA的提示图范式会将每个support输入图的NOI提示节点与其所对应的类别节点相连,同时将query输入图的NOI提示节点与所有类别节点相连。

后续的预测步骤与上文所述一致。这样每个类别节点将会额外得到support输入图的信息,从而在统一的范式下实现少样本学习。

OFA的主要贡献总结如下:

统一的图数据分布:通过提出文本图并用LLM转化文本信息,OFA实现了图数据的分布对齐与统一。

统一的图任务形式:通过NOI子图与NOI提示节点,OFA实现了多种图领域子任务的统一表示。

统一的图提示范式:通过提出新颖的图提示范式,OFA实现了图领域内的多场景in-context learning。

超强泛化能力

2021全球智慧能源高峰论坛

文章在所收集的9个数据集上对OFA框架进行了测试,这些测试覆盖了在有监督学习场景下的十种不同任务,包括节点预测、链路预测和图分类。

实验的目的是验证单一的OFA模型处理多任务的能力,其中作者对比使用不同LLM(OFA-{LLM})和每个任务训练单独模型(OFA-ind-{LLM})的效果。

比较结果如下表所示:

iphone相机丑

可以看到,基于OFA强大的泛化能力,一个单独的图模型(OFA-st,OFA-e5,OFA-llama2-7b,OFA-llama2-13b)即能够在所有的任务上都具有与传统的单独训练模型(GCN, GAT, OFA-ind-st)相近或更好的表现。

同时,使用更强大的LLM可以带来一定的性能提升。文章进一步绘制了训练完成的OFA模型对于不同任务的NOI提示节点的表示。

可以看到不同的任务被模型嵌入到不同的子空间,从而使得OFA可以对于不同的任务进行分别的学习而不会相互影响。

在少样本以及零样本的场景下,OFA在ogbn-arxiv(引用关系图),FB15K237(知识图谱)以及Chemble(分子图)上使用单一模型进行预训练,并测试其在不同下游任务及数据集上的表现。结果如下:

可以看到,即使在零样本场景下,OFA依旧可以取得不错的效果。综合来看,实验结果很好的验证了OFA强大的通用性能以及其作为图领域基础模型的潜力。

更多研究细节,可参考原论文。

地址:

https://arxiv.org/abs/2310.00149

https://github.com/LechengKong/OneForAll

—完—


返回网站首页

本文评论
Oracle Linux 8.5 上架微软 Win11/10 应用商店,免费下载
  2 月 7 日消息,如果你是需要在 Windows 上使用 Linux 的开发者,那么你现在又多了一种“口味”可以选择了。Oracle Linux 现在宣布,可以在 Windows 11 和 Windows 10 上的...
日期:07-17
斗鱼第二季度营收18.3亿元 净利润2350万元(斗鱼二季度财报)
查看最新行情   讯 北京时间8月15日下午消息,斗鱼(Nasdaq:DOYU)今日发布了截至6月30日的2022年第二季度财报。财报显示,斗鱼第二季度总净营收为18.332亿元...
日期:08-17
顾客点猪脚面外卖:备注“要吃《狂飙》同款”
这个春节假期,茶余饭后最热的话题非《狂飙》莫属。虽然《狂飙》已经大结局,但观众却意犹未尽。剧中不时出现的广东小吃,更是令不少人垂涎三尺,比如猪脚面,《狂飙》中的猪脚面是高...
日期:02-07
关于办理电信网络诈骗等刑事案件解读_国家网信办曝光一批涉未成年人电信网络诈骗典型案例
为贯彻落实习近平总书记关于打击治理电信网络诈骗犯罪工作的重要指示精神,针对暑假期间未成年人上网时间增多的情况,国家网信办会同公安部,深入清理网上涉诈有害信息,精准提示潜...
日期:08-09
美国华尔街金融机构「华尔街16家银行巨头同意11亿美元了结WhatsApp相关调查」
  讯 北京时间9月28日早间消息,包括高盛集团和花旗集团在内的华尔街银行业巨头已经与美国证券交易委员会(SEC)达成和解协议,同意向其支付总额11亿美元的罚款,原因是这些银行未...
日期:09-30
谷歌亚马逊工作「谷歌亚马逊在欧洲难裁员,提供丰厚补偿鼓励自愿离职_」
4月6日消息,在宣布有史以来最大规模的裁员后,美国大型科技公司正面临新的难题:如何在欧洲裁减员工。在美国,公司可以宣布大规模的裁员,几个月内数百甚至数千名员工可能被解雇,而且...
日期:04-06
带有屏下面容ID的 iPhone?这对灵动岛意味着什么
9to5mac报道,到目前为止,有两份报告表明,明年可能是苹果能够将其Face ID传感器移动到iPhone显示屏下方的一年。这一成就意味着苹果可以完全取消灵动岛(或刘海),而是选择单孔打孔切...
日期:01-12
美国“4万亿”科技大佬激辩人工智能:马斯克、扎克伯格“各怀鬼胎”?| AI前哨
凤凰网科技讯《AI前哨》北京时间9月14日,当地时间周三,美国参议院多数党领袖查克舒默(Chuck Schumer)组织了一场人工智能(AI)峰会,邀请科技界的多名大佬和60多名参议员一同讨论AI...
日期:09-14
腾讯文档 Linux 版已上架深度 deepin 应用商店
  据深度系统发布,腾讯文档 Linux 版已上架 deepin 应用商店。   腾讯文档是一款可多人同时编辑的在线文档,提供完善的编辑能力,轻松设置文字样式和段落格式,添加图片、链...
日期:07-17
面对微博新机会 所有中国互联网网站都不愿错过这一配置
  尽管新浪微博占据了weibo.com的域名,面对微博的新机会,所有中国互联网网站都不愿错过这一配置。   腾讯内部人士昨日对《第一财经日报》透露,腾讯将依靠整合康盛微博平...
日期:07-27
零跑汽车投资人「零跑汽车创始人:有信心在一些环节超越特斯拉」
前段时间,特斯拉全球开打价格战,此举也让国内的造车新势力被迫迎战。并且,一些车企的销量也受到了极大的冲击,尤其是二线新势力品牌更为严重。今年1月份,零跑汽车交付仅为1139辆...
日期:02-08
360发布首个安全行业大模型并实现多场景应用-潘剑锋_360潘剑锋什么级别
【】8月10日消息,在ISC 2023第十一届互联网安全大会上,360集团首席科学家兼360数字安全集团CTO潘剑锋谈到:“360安全大模型目前已在360内部及自有产品落地应用,并能面向市场和用...
日期:09-18
国家电网:应对用电高峰 试点推行电动汽车错峰充电(国家电网充电峰谷时段)
高温天气影响下,多个省份的用电负荷屡创新高,为保障用电高峰电网安全运行,国家电网在部分高温高负荷省份试点推行电动汽车错避峰充电。   首批开展试点的是重庆、浙江、湖北...
日期:08-20
中国北斗投入民用了吗「我国北斗系统正式加入国际民航组织标准,今后可全球民航通用」
感谢IT之家网友 、 的线索投递! 11 月 16 日消息,据中国民航报消息,近日,《国际民用航空公约》附件 10 最新修订版正式生效,其中包含了北斗卫星导航系统标准和建议措施,这标志着北...
日期:11-16
微软Windows 10发警告,拒绝连接WEP加密WiFi
  11月14日消息 微软将开始在Windows 10中弃用的一些技术,其中一个大家熟悉的名字是WEP WIFI加密。   自2019 Windows 10更新五月版以来,当用户连接到通过WEP或TKIP保护...
日期:07-25
挖土桃视频「挖呀挖桃子老师每场直播收入仅千元 远未达到网络传言千万级别」
2023 年 4 月,一位“ 00 后幼儿教师演唱童谣”的视频在网络上走红,随着这位桃子老师的名气攀升,有关她直播收入的传闻也甚嚣尘上。从“直播收到千万打赏”到“直播带货百万收益...
日期:12-26
华为手表黄金版「打破科技与时尚边界 华为智能金表黄金工艺成就非凡」
华为推出的超高端智能手表——华为WATCH ULTIMATE DESIGN 非凡大师自上市以来,就极受追捧。上市初期,由于需求远超备货,曾一机难求,在二级市场甚至被炒到8万多。华为WATCH ULTIM...
日期:01-29
中国与GPT-4差距两三年-不存在难以逾越技术障碍 周鸿祎
以ChatGPT为代表的生成式AI火爆全球,最新的GPT-4大模型又进一步提升了ChatGPT的能力,国内有多家公司都在对标ChatGPT,然而发布出来的产品被指差距极大,360创始人周鸿祎则有不一...
日期:10-05
华为新专利曝光!手机可当显微镜,最高放大400倍_华为哪一款手机有显微镜功能
失效分析 赵工 半导体工程师 2023-10-09 09:57 发表于北京据快科技消息,OPPO在此前的Find X3 Pro手机中加入了“显微镜”功能,可以实现60倍放大。虽然名为显微镜,但其娱乐效果...
日期:10-10
西部数据网络安全事件后服务已恢复,公司发布攻击事件新进展_西部数据digital software
5月6日 消息:今年三月,数据存储领域的巨头西部数据(Western Digital)遭受黑客攻击,今天该公司发表的公告称,受到影响的各项服务目前已恢复正常运转,并且正在积极与受影响的客户联...
日期:05-07