您的位置:首页 > 互联网

图领域首个通用框架来了!入选ICLR'24 Spotlight,任意数据集、分类问题都可搞定|来自华盛顿大学&北大&京东

发布时间:2024-02-05 04:06:22  来源:互联网     背景:

声明:本文来自于微信公众号 量子位 (ID:QbitAI),作者:丰色,授权转载发布。

Pixel 6

能不能有一种通用的图模型——

它既能够根据分子结构预测毒性,又能够给出社交网络的朋友推荐?

或者既能预测不同作者的论文引用,还可以发现基因网络中的人类衰老机制?

你还真别说,被ICLR2024接收为Spotlight的“One for All(OFA)”框架就实现了这个“精髓”。

它由圣路易斯华盛顿大学陈一昕教授团队、北京大学张牧涵以及京东研究院陶大程等研究者们联合提出。

作为图领域首个通用框架,OFA实现了训练单一GNN模型即可解决图领域内任意数据集、任意任务类型、任意场景的分类任务。

具体如何实现,以下为作者投稿。

图领域通用模型设计面临三大难

设计一个通用的基础模型来解决多种任务是人工智能领域的一个长期目标。近年来,基础大语言模型(LLMs)在处理自然语言任务方面表现出色。

然而,在图领域,虽然图神经网络(GNNs)在不同的图数据中都有着不俗的表现,但如何设计与训练一个能同时处理多种图任务的基础图模型依然前路茫茫。

与自然语言领域相比,图领域的通用模型设计面临着许多独有的困难。

首先,区别于自然语言,不同的图数据有着截然不同的属性与分布。

比如分子图描述了多个原子如何通过不同的作用力关系形成不同的化学物质。而引用关系图则描述了文章与文章之间相互引用的关系网。

这些不同的图数据很难被统一在一个训练框架下。

其次,不同于LLMs中所有任务都可以被转化成统一的下文生成任务,图任务包含了多种子任务,比如节点任务,链路任务,全图任务等。

不同的子任务通常需要不同的任务表示形式与不同的图模型。

最后,大语言模型的成功离不开通过提示范式而实现的上下文学习(in-context learning)。

在大语言模型中,提示范式通常为对于下游任务的可读文字描述。

但是对于非结构化且难以用语言描述的图数据,如何设计有效的图提示范式来实现in-context learning依然是个未解之谜。

用“文本图”概念等来解决

下图给出了OFA的整体框架:

具体而言,OFA的团队通过巧妙的设计来解决上述所提到的三个主要问题。

对于不同图数据属性与分布不同的问题,OFA通过提出文本图(Text-Attributed Graph, TAGs)的概念来统一所有图数据。利用文本图,OFA将所有的图数据中的节点信息与边信息用统一的自然语言框架来描述,具体如下图所示:

接着,OFA通过单一LLM模型对所有数据中的文本进行表示学习得到其嵌入向量。

这些嵌入向量将作为图模型的输入特征。这样,来自不同领域的图数据将被映射到相同的特征空间,使得训练一个统一的GNN模型可行。

OFA收集了9个来自不同领域,不同规模的图数据集,包括引用关系图,Web链接图,知识图谱,分子图, 如下图所示:

此外,OFA提出Nodes-of-Interest(NOI)子图与NOI提示节点(NOI Prompt Node)来统一图领域内不同的子任务类型。这里NOI代表参与到相应任务的一组目标节点。

比如,在节点预测任务中,NOI是指需要预测的单个节点;而在链路任务中,NOI包括需要预测链路的两个节点。NOI子图是指围绕着这些NOI节点扩展出的一个包含h-hop邻域的子图。

然后,NOI提示节点为一个新引入的节点类型,直接连接到所有的NOI上。

重要的是,每个NOI提示节点包含了当前任务的描述信息,这些信息以自然语言的形式存在,并和文本图被同一个LLM所表示。

由于NOI中节点所包含的信息在经过GNNs的消息传递后将被NOI提示节点所收集,GNN模型仅需通过NOI提示节点来进行预测。

这样,所有不同的任务类型将拥有统一的任务表示。具体实例如下图所示:

最后,为了实现图领域的in-context learning,OFA引入统一的提示子图。

在一个有监督的k-way分类任务场景下,这个提示子图包含了两类节点:一类是上文提到的NOI提示节点,另一类是代表k个不同类别的类别节点(Class Node)。

每个类别节点的文本将描述此类别的相关信息。

NOI提示节点将会单向连接到所有类别节点上。通过这个方式构建好的图将被输入进图神经网路模型进行消息传递与学习。

最终,OFA将对每个类别节点分别进行二分类任务,并取概率最高的类别节点作为最终的预测结果。

由于类别信息存在于提示子图中,即使遇到全新的分类问题,OFA通过构建相应的提示子图即可直接进行预测而无需任何微调,从而实现了零样本学习。

对于少样本学习场景,一个分类任务将包含一个query输入图和多个support输入图,OFA的提示图范式会将每个support输入图的NOI提示节点与其所对应的类别节点相连,同时将query输入图的NOI提示节点与所有类别节点相连。

后续的预测步骤与上文所述一致。这样每个类别节点将会额外得到support输入图的信息,从而在统一的范式下实现少样本学习。

OFA的主要贡献总结如下:

统一的图数据分布:通过提出文本图并用LLM转化文本信息,OFA实现了图数据的分布对齐与统一。

统一的图任务形式:通过NOI子图与NOI提示节点,OFA实现了多种图领域子任务的统一表示。

统一的图提示范式:通过提出新颖的图提示范式,OFA实现了图领域内的多场景in-context learning。

超强泛化能力

文章在所收集的9个数据集上对OFA框架进行了测试,这些测试覆盖了在有监督学习场景下的十种不同任务,包括节点预测、链路预测和图分类。

实验的目的是验证单一的OFA模型处理多任务的能力,其中作者对比使用不同LLM(OFA-{LLM})和每个任务训练单独模型(OFA-ind-{LLM})的效果。

比较结果如下表所示:

可以看到,基于OFA强大的泛化能力,一个单独的图模型(OFA-st,OFA-e5,OFA-llama2-7b,OFA-llama2-13b)即能够在所有的任务上都具有与传统的单独训练模型(GCN, GAT, OFA-ind-st)相近或更好的表现。

同时,使用更强大的LLM可以带来一定的性能提升。文章进一步绘制了训练完成的OFA模型对于不同任务的NOI提示节点的表示。

可以看到不同的任务被模型嵌入到不同的子空间,从而使得OFA可以对于不同的任务进行分别的学习而不会相互影响。

在少样本以及零样本的场景下,OFA在ogbn-arxiv(引用关系图),FB15K237(知识图谱)以及Chemble(分子图)上使用单一模型进行预训练,并测试其在不同下游任务及数据集上的表现。结果如下:

可以看到,即使在零样本场景下,OFA依旧可以取得不错的效果。综合来看,实验结果很好的验证了OFA强大的通用性能以及其作为图领域基础模型的潜力。

更多研究细节,可参考原论文。

地址:

https://arxiv.org/abs/2310.00149

https://github.com/LechengKong/OneForAll

—完—


返回网站首页

本文评论
FBI仍无法进入枪击案嫌疑人的iPhone,希望苹果提供更多帮助
  2月6日消息 据外媒报道,美国联邦调查局官员仍未能解锁去年12月造成佛罗里达州枪击案的凶手Mohammed Saeed Alshamrani的iPhone。   据彭博社报道,FBI局长克里斯托弗·...
日期:05-27
算力引领,高质量赋能 | 2023算力产业高质量发展全国大会在京召开
12月13日,由中国通信工业协会数据中心委员会(CIDC)主办的“2023算力产业高质量发展全国大会”在北京国家会议中心隆重召开,出席大会的有国家相关部委领导、枢纽节点地区城市领导...
日期:12-20
微软预告 Win11 安卓子系统WSA会支持 DRM 保护的高分辨率视频流
IT之家 12 月 30 日消息,微软 Win11 安卓子系统 WSA 日前升级至 Android 13,启动性能提升 50%。微软今天发布 WSA 系统更新预告,即将引入对 DRM 保护的高分辨率视频流的支持。...
日期:12-30
NVIDIA RTX 5000 Ada工作站显卡现身国内电商:32GB显存 价格35999元
快科技9月29日消息,NVIDIA在8月份发布的RTX5000/6000ADA工作站专业卡,如今终于在国内电商上架了。不过价格不美丽,售价来到了35999元。mate8系列据了解,在规格上RTX5000ADA采用...
日期:09-30
受疫情影响 苹果iPhone14产量将可能下降30%「iphone13在美国销量」
近日,疫情肆虐,本次受影响最大的当属为苹果生产iPhone的富士康郑州园区,目前当地情况相对稳定,当地也在有序复工复产。但据海外媒体报道称,此次疫情反扑或将影响苹果iPhone 14手...
日期:11-08
拼多多搬运商品软件「我,在拼多多当“搬运工”,一条短视频薅走1000元」
声明:本文来自于微信公众号 电商在线(ID:dianshangmj),作者:王崭,授权转载发布。抖音、快手两大短视频平台混战,在内容电商上频频出招,视频号利用微信生态崛起,小红书也在今年年初...
日期:03-14
微软、谷歌之后 欧盟反垄断又对美国Meta下手:可罚款上百亿美元_谷歌微软全球垄断
在反垄断方面,欧盟对美国公司一向严格,此前谷歌、微软都被巨额罚款过,现在轮到Mtea(Facebook母公司)了,欧盟认定他们滥用市场支配地位,最高罚款额超过100多亿美元。2021年4月手机cp...
日期:12-20
嘉楠 K210 芯片落地智能教育新品,自动驾驶拓展小车来了
  日前,嘉楠科技与全年龄段智慧教育解决方案提供商闪现智能合作,并且已经进入产品开发阶段。据悉,闪现智能是基于勘智 K210 芯片开发了多款智能教育硬件产品,包括 AI 教育核...
日期:07-17
多名女子被骗「警方数次预警仍不听劝!男子网上寻觅佳人被骗47万元」
  作者| 潘从武 通讯员 甘雯;编辑|王芳 李金凤;丁兆汝  来源:法治日报  2022年9月28日,庞先生在新疆乌鲁木齐市公安局沙依巴克区分局友好南路派出所报案时,仍然想不明白自...
日期:10-03
沙漠里养海鲜,新疆又干了件大事_沙漠边上养海虾
文|正解局最近,新疆三文鱼养殖喜获丰收,今年预计实现3000吨量产。“离海最远”的新疆,为什么能养海鲜?这背后又有什么重大意义?新疆能养三文鱼,其实不稀奇。三文鱼虽然属于海鱼,但因...
日期:09-09
天平已开始倾斜!中国放弃减配版美国AI芯片?
芯片作为工业时代的“粮食”,其重要性不需要多说了!无论是电子设备还是航天航空,无论是家用电器还是新能源汽车,都离不开芯片。由于中国科技起步较晚,在芯片技术方面早就被甩在了...
日期:01-11
久闻其“声”,思必驰车载语音交互技术在智能汽车上的韧性与潜力
  碳中和发展背景下,新能源汽车推动了中国能源行业重组。借力打破技术壁垒,更深地构建起了中国汽车工业产业自信。   按照国家规划的发展愿景,2025年新能源汽车新车销...
日期:02-04
李彦宏、李开复等入选《时代》周刊“全球AI领袖”_时代周刊对李彦宏的评价
【】9月8日消息,《时代》周刊(TIME)公布2023年度“AI领域百大影响力人物”榜单,这份名单分为四大类,汇集了人工智能领域的领袖(Leaders), 创新者(Innovators), 影响者(Shapers)和思想家...
日期:09-10
腾讯云大数据平台「腾讯云与福建大数据集团发布政务大模型“小闽助手”」
4月26日 消息:4月25日,腾讯云与福建大数据集团正式签署合作协议,以腾讯云智能AI算力调度平台、大语言模型算力及技术能力为基础,共建“福建智力中心”项目,并助力打造互动式政务...
日期:04-26
荣耀Magic6最新曝光:卫星通信+大底潜望,或12月发布_荣耀v6 magic4
作为荣耀旗下的高端旗舰代表作,今年3月发布的荣耀Magic5系列凭借着优秀的外观设计、强劲的硬件堆料和出色的影像表现,收获了许多用户的好评,也因此不少网友对于接下来的Magic6...
日期:08-21
毒瘤?诺基亚成国产手机恶梦 一年收百亿专利费:5G时代华为等翻身
快科技6月8日消息,对于国产手机来说,4G时代确实专利储备不多,这导致现在想要在欧洲市场售卖手机,比较困难。OPPO、vivo和小米之前都曾在欧洲市场遭遇了专利阻击,而前两家厂商甚至...
日期:06-08
AI芯片战场三个关键华裔_ai芯片现状
苏姿丰、黄仁勋、张忠谋,这场三人局,也是AI行业最具时代特征的缩影。文|《中国企业家》记者 赵东山小米手机 typec编辑|李薇头图来源|受访者大模型掀起的算力大战,背后三位华裔创...
日期:06-21
小米13S无了-雷军_小米13没有计划做半代升级版本_小米13.3
去年7月,小米12S系列发布,带来小米12S、小米12S Pro、小米12S Ultra三款机型,通过与徕卡的联合,打造了顶级的影像系统,在手机行业,甚至是摄影圈都收获了不错的口碑。其中,小米12S U...
日期:09-19
硬卧下铺别人能不能坐?12306回应:相应位置使用权仅限购票乘客
您是否曾经在乘坐火车时遇到过别人占用您购买的硬卧下铺的情况?这一问题近日引起了广泛的关注和讨论,因为关于硬卧下铺的使用权归属问题引发了疑问。中国铁路客户服务中心(123...
日期:08-30
荣耀20pro更新后缺点「荣耀80系列有望11月发 :Pro+版本缺席」
目前双十一大促节已拉开序幕,手机圈也热闹起来,将会有不少新机将赶在双11前发布,荣耀手机这边也有大动作。据数码博主厂长是关同学 ”透露,荣耀将会在11月发布荣耀80系列新机,这...
日期:11-05