您的位置:首页 > 媒体评论

躁动图计算:蚂蚁和字节们想找到“幻视”额头上那颗宝石

发布时间:2022-09-17 01:01:37  来源:互联网     背景:

在美剧《国土安全》里常出现这样的桥段:警员在自己家里理出一面墙,把手上案件里的所有关联人物和事件都贴在墙上,然后就是一个填肉的过程......照片、箭头和关键词组成一幅复杂的事件全貌。

——找到那个罪犯。

这几乎是所有悬疑电影的经典场景。整个案件唯一的破绽就藏在这张关系网络里,推理者的视线在这面墙上流转,观众的肾上腺素也被极速调动起来。

我们会觉得这是合理的,设想中人类最敏锐的大脑可以穿破墙上的迷雾——如果墙上只有5个家庭,10个嫌疑人,和关于他们的100件事的话。

但如果把这面墙无限扩大,比如1亿个嫌疑人,100亿件事呢?

看起来这已远超人脑的负载极限,但我们可能已经见过这样的事了——或许你我的手机里就正在经历这些——比如各式各样的知识图谱,以及在它底层,一个抽象出来叫做图计算的技术概念。

图计算缘起

“Things, not strings.”(是相互连接的事件,而不只是一个个字符串)

Google在2012年5月提出了这句话,以及知识图谱的概念。

知识图谱,由知识(Knowledge)和图谱(Graph)两个词构成,前者是信息的内容要素,后者是信息最终的表现形态。这种信息间全新的连接方式,其基本组成单位是“实体—关系—实体”三元组,以及实体及其相关属性—值对,实体之间通过关系相互联结,构成网状的知识结构。

知识图谱能够成立的核心是计算机的知识推理机制,图计算为其提供了重要的底层技术支持。

图计算中的“图”即Graph,这是一种基于图论而非数论的计算逻辑。

图论的基本要素是“节点”和“边”,“节点”可以理解为人或者网络账号这些相对静态的实体,而“边”则代表着不同实体之间的关系或者行为。

比如A在抖音上关注了B,这个动作就成为A和B之间这条“边”上可包含的信息。“边”在记录内容的时候可以表示方向(可以理解为在A与B之间标注出了箭头),这被称为有向图,而如果“边”没有标注方向则称为无向图。这种信息数据甚至可以是多模态的,比如在脑科学领域涉及光或电信号的时候。

相比于链表或者线性表的二维结构,“图”相当于在结构上做了一次升维,这也让其对于“关系”有更优越的描述能力,也更接近人类对于事物联系的原生表达。

简单来讲,我们从来不是以Excel的样子来理解外部世界的,图的相互连接更接近正常人的思考方式。从遥远的阿兰•图灵时代开始,人类就在思考如何让机器像人类一样思考,图计算是目前为止最有潜力的路径。

一开始只是试图找到从鹿特丹到格罗宁根的最短路径,荷兰计算机科学家Dijkstra为了解决这个问题在1956年发明了寻求图最短路径的Dijkstra算法,这是最早与图计算连接起来的概念之一。到Google创始人Larry Page在20世纪末发明了开创性的PageRank算法(网页排名),以及随着社交网络时代降临而繁荣起来的如Girvan-Newman算法等社区发现算法。

这其中也能看出来,图计算的定义本身也在经历一个从狭义到广义的延展过程。

狭义的图计算更多指在确定不变的图上做的计算,比如基于地图信息的路网图——在变化频率和幅度很低的鹿特丹到格罗宁根之间寻找一条最短路径——这是图计算可以解决的典型问题。

广义的图计算指一切基于图数据进行的分析计算,其中的数据概念进而扩充到海量规模并且富于动态变化,比如社交媒体的关系网络(脸书的核心框架Social Graph),不断发生新事件的历史知识图谱,或者将道路拥堵变化也考虑在内的路径规划。

于是图数据库的概念被引入进来。

图数据库是用来处理图这种数据结构的工具,传统的使用二维表格存储数据的数据库被称为关系性数据库——或者可以被理解成无数以横竖轴结构展开的表数据的集合,图数据库则是另一种非关系性数据库,它把所有表格打散了,然后织成一张网。

图数据库与关系型数据库最大的不同是免索引邻接。即图数据模型中的每个节点都会维护与它相邻的节点关系,这就意味着查询时间与图的整体规模无关,只与每个节点的邻点数量有关,这使得图数据库在处理数据之间关系方面比关系性数据库更加灵活之外,也具备处理大量复杂关系时比后者更优越的性能。

Google创始人Larry Page

图计算与图数据库的发展是互联网时代的一条暗线,在其中一些关键技术背后,可以看到谷歌、Meta、推特甚至高盛的身影——如果你还记得2007年开始爆发的那场金融危机的话——莱曼兄弟公司破产,高盛却因为提前预见到了次级抵押贷款市场的熊市而活了下来,背后是图数据库系统——SecDB对危险的察觉能力。

不遑说,今天许多伟大公司都是基于图计算领域的尖端技术而诞生或持续繁荣的。

而在经历了几十年的发展之后,图计算现在站到了更广泛的应用场景入口。

咨询公司Gartner在《2021 年十大数据和分析技术趋势》的报告中预测,2025年全球将有80%的数据和分析创新会与图技术有关。

在这届世界人工智能大会(WAIC)上,与图计算或图数据有关的论坛数量也多达五场,是本次大会上被最高频的概念之一。如蚂蚁集团、亚马逊云等瞩目的图数据库框架,也在本届WAIC上首次开源。

图计算作为一种技术在国内开始成熟的标志是,小范围的数据已无法探索技术上限,它比以往任何时候都需要更大的试验场,比如6亿用户的抖音,或者12亿用户的支付宝。越来越多大型科技公司出现在关于图计算的讨论中。开源是产业化的隐喻,产业化的加速使图计算开始获得更丰富的能力纵深,甚至早已不局限在知识图谱的领域。

抖音与支付宝,两条路径

2018年8月,字节跳动内部开始自研图数据库ByteGraph的开发。

ByteGraph项目的发起是为了抖音核心的社交关系问题。个性化推荐系统逐渐成为互联网各大社交媒体和电商网站的基础能力。与此并行的,知识图谱的场景也正在丰富,大量研究工作逐渐指向两者的交汇处,图计算与知识图谱可以用来完善基于内容的推荐系统,从而提升推荐效果。

这是图计算在字节跳动内的起点,并由此开始进入业务的底层开发场景。从抖音开始,ByteGraph逐渐演变为支持有向属性图数据模型、支持写入原子性、部分Gremlin图查询语言的通用图数据库系统,随后逐渐渗入今日头条、TikTok、西瓜、等几乎字节跳动全部产品线。

“(现在)字节跳动整个业务开发团队,已经都在用图建模的方式来表达和处理业务逻辑”,ByteGraph团队负责人张帅表示。

开发团队围聚在一起探索业务时,往往会拽过来一块白板,把初步的开发逻辑和任何灵感写在一起。这某种程度上即是一种知识图谱,并且天然与人类大脑思维接近。但此前这样一张思维导图需要被重新整理——可以理解为把图文并茂的图降维成一张Excel——再进入开发步骤。

但现在基于图计算和图数据库,这张白板上的草图可以直接被代码化了。

ipad4充电速度

在电商、到店业务甚至音乐等更复杂的场景嵌进信息流与社交属性后,“图”作为一种关系逻辑的重要性在字节跳动内完全显示出来了。张帅透露ByteGraph已经在火山引擎上开始构建,这意味着字节跳动的图数据库开源已经开始提上日程。

在图数据库的进展方面,蚂蚁集团走在字节跳动前面。在本届WAIC上,蚂蚁集团宣布开源图数据库TuGraph的单机版本。

蚂蚁集团的图数据库研发从2015年开始,隔年第一次发布自研分布式图数据库并用于支付宝。2021年,蚂蚁集团联合清华大学自主研发的 “大规模图计算系统 GeaGraph” 完成了产品 3.0 版本的迭代。迭代后的版本查询效率提升 10 倍,兼容性更强,并且正式升级为TuGraph。

相比抖音,支付宝背后有一张更庞大的用户关系网络,而其围绕支付展开的科技金融业务,也让两者在进入图计算领域的侧重上分出差异。

蚂蚁集团看中的是图计算中增强“薄”数据的表征,从而增强支付安全性的能力。

比如在支付宝的场景中,判断一个用户的消费偏好,或者这个人还款的信用,当用户数据信息很丰富的时候,人工智能算法往往会得到很好的结果。但如果用户背后没有太丰富的信息——比如他只是偶尔的用支付宝转过几笔钱——如何得知这个人的特点呢?

图数据比起以关系数据网为代表的表数据最鲜明的优越性在于,很多时候人、地点和事件的关联性并不完全能以表的形式呈现,却能用“节点”和“边”这种更松散的形式记录下来,这些隐形的关联信息单独来看并不能解释某个关联用户的行为,但这张网聚集起来却能形成一些社区发现。也因此,当这张关系网络中纳入的用户越多,这种四两拨千斤的能力也愈强。

“图是一种最为灵活的连接方式,让实体之间可以不受限制地连接”,蚂蚁技术研究院院长陈文光表示,这同时也赋予了算法更多的“可解释性”。

人跟随着算法生活的蜜月正在过去,算法对人的过度入侵开始被提到高位审视。在这个过程中,算法已经不可逆的搭建起一套社会需要依附其上的运转方式,于是当代码替人做了决定——比如你的转账额度,或者为什么一直收到某一类的广告——这个决定是如何做出的,需要可以被清晰追溯。

陈文光以社区发现举了个例子:

“比如在某个社区里已知有一些“坏人’,然后我们发现某个人和这些邻居的链接比较紧密,那这个人是”坏人”的概率也会更大。”

这是最基本的思路。一个人的节点特征是由他邻居的节点特征通过某种运算,结合和他过去的特征合在一起型成的。(邻居的表征和关联关系)能够影响我们对一个人的判断,形成他(一个节点)新的特征,这与之前纯粹将数据放进神经网络,通过统计学得到一个完全没法解释的分类答案不一样。”

相比于表数据来说,图计算带有一个更清晰的逐层推导结构,这个结构本身就意味着一定的可解释性。

这种把薄数据“变厚”的能力以及推理过程的可解释性,已经开始和蚂蚁集团开源的可信隐私计算框架“隐语”一起,在支付宝反诈风控的系统中形成合力。目前支付宝可在0.01秒内完成对一笔交易的风险判定,并且在2021年的全年统计中资损率低于亿分之0.98——即平台上1亿人民币的资金流转中,出于欺诈行为的不到1元。

开始跨入现实之门

在这位从学界跨入产界的蚂蚁智库首席看来,图计算是一个处在数据和人工智能发展交汇处的概念。技术沉淀多时,亟需的是场景。

陈文光是以费马科技创始人的身份加入蚂蚁集团的,再那之前的十几年一直在清华大学计算机系担任教授,这番从学界投身产界,最终进入大公司的姿态本身也像是图计算作为一个前沿领域发展的某种映射。

费马科技在2016年5月创立,站在台前的是包括洪春涛和朱晓伟在内的几位清华计算机系博士,陈文光则落于幕后担任首席科学家。公司的业务方向是立足于高性能的分布式图计算以进行大规模关系网络分析,为银行等客户提供反欺诈能力和社交分析能力,以及整体的金融大数据解决方案。

2016年之前,陈文光在清华大学主导的图计算研究已经有了成果,团队自研的图计算系统比当时开源软件中常用的图计算框架GraphX要快100倍左右,而所需的内存只是后者的10%。把自己培养的博士生聚拢起来,继续优化自研的图计算系统,并为它找到使用场景,这是费马科技成立的初衷。

费马的畅想卡在规模化这最后一步。

“图计算要想真正成长起来,第一步要解决:做出来;第二步:有人用;第三步:大规模使用。而当时困扰我的问题,怎么实现从有人用到大规模使用。”

几年时间里费马科技确实拿到了一些标杆客户,比如京东金融和国家电网,但整体的商业化路径并不清晰,这也不是技术出身的团队所擅长的事。

在本届WAIC的一场论坛上,洪春涛与陈文光同席出现在最后的圆桌环节。洪春涛曾是费马科技的CEO,现在他的身份是蚂蚁集团图数据库负责人。2020年,洪春涛曾经表示图计算未来的市场规模会达到千亿,并且“已到爆发前夜”,但2021年初的多项工商变更则表明,费马科技决定在这黎明前的最后一夜拥抱蚂蚁集团。

原费马科技高管,左三为陈文光,右二为洪春涛

“到 2020 年的时候,我们发现了自身的局限性。费马团队总体上技术上是很强,但是管理和市场销售,特别是后者我们相对比较弱的”,陈文光在今年6月的一次采访中对极客公园表示。

2020年,蚂蚁集团宣布了陈文光的加入。两年之后,后者开始担任蚂蚁技术研究院院长。

蚂蚁集团对于图计算的布局很早,从2015年开始就自主研发分布式图数据库、流式图计算等图相关技术,2016 年发布自研分布式图数据库。而手握支付宝,意味着蚂蚁天然有了全球领先的图计算的场景需求,这是纯粹从技术出发的图计算团队都不具备的。

从陈文光的表述中,费马科技并入蚂蚁集团并不是商业场上那种千篇一律的无奈收购,而是一个技术找到场景的积极故事。蚂蚁集团,或者字节跳动这些掌握大量数据的科技公司正拥有这片土壤。只有在最大限度的接触到真实数据之后,图计算的成长才会开始加速,直到最终从象牙塔中走出,找到现实世界中的位置。

除了蚂蚁和字节跳动,国内的互联网巨头几乎无一例外的都已经开始图计算和图数据库的相关布局。

华为云的图引擎服务GES(Graph Engine Service)是国内首个商用的、拥有自主知识产权的国产分布式原生图引擎。早在2019年华为云推出一站式AI开发平台ModelArts,联合了GES图引擎打造的“图神经网络”,自此图深度学习开始落地。

2020年6月1日,腾讯云正式发布分布式图数据库产品腾讯云数图TGDB(Tencent Graph Database),能够实现万亿级关联关系数据实时查询,高效治理异构数据,支持实时图计算。

而早在2018年,百度已宣布开源大规模图数据库HugeGraph,这也是国内第一家开源的图数据库。今年5月百度将HugeGraph捐赠给了世界上最大的开源软件基金会Apache,成为后者的孵化项目之一。孵化成功的HugeGraph有望成为全球首个Apache软件基金会的图数据库顶级项目。

这一切迹象都在表明,图计算正在被积极的潮水推动着。人类苦寻“幻视”一样理想的人工智能,或许我们已经找到额头上的那颗宝石了。


返回网站首页

本文评论
激光雷达汽车_还没玩明白激光雷达 车企又开始给用户讲算法了
买有辅助驾驶功能的车型,一般人会看软件还是硬件?相比于晦涩难懂、不够直观的自动驾驶软件来说,车企更愿意聊聊有硬核参数与冲击力的硬件。这点从很多专业用户都喜欢谈论的“激...
日期:09-18
到了2023年,中端机会重新迎来潜望式长焦吗?
如果你是一位长年关注智能手机产品的“发烧友”,可能知道在这个市场里“潜望式长焦”很长时间以来,一直都被认为是“真·旗舰机型”的标志性功能之一。请注意,我们在这里刻意加...
日期:01-01
格力核心经销商倒戈 董明珠回应_董明珠把格力卖了
原标题:格力核心经销商倒戈 董明珠回应:不志同道合的人离开正常10月13日消息,据老板联播报道,今年以来,核心经销商“倒戈”事件频频将格力电器推上风口浪尖。youtube ios画中画董...
日期:10-17
首播破亿 口碑两极 《三体》能否帮B站走出“暗黑森林”?_三体2黑暗森林什么时候上映
《三体》能否帮B站走出“暗黑森林”?图片来源@视觉中国文|雪豹财经社,作者 | 青城iphone14药丸屏踩着2022年的尾巴,迎着同时袭来的赞誉和吐槽,“鸽”了整整一年的《三体》动画版...
日期:12-14
激光雷达的冬天静悄悄「激光雷达 雨天」
自动驾驶的寒风从Robotaxi吹到了激光雷达。一周前,全球首家激光雷达上市公司Velodyne宣布与另一激光雷达初创Ouster合并,行业为之震撼。Ouster的创始人出自另一知名激光雷达公...
日期:11-20
《三体》动画定档12月 B站推出49部国创作品新内容「三体动画版什么时候上映」
10月29日,哔哩哔哩(以下简称“B站”)举办了2022-2023国创动画作品发布会,宣布《三体》动画定档12月3日,并将开启《三体》动画全球共创计划。华为matebookd15锐龙配置图片来源 B站...
日期:11-04
近百年来,我国虽然也出现过不少杰出的科学家_端牢中国饭碗!我国科学家有了重要发现
“高产”与“早熟”,在传统的农业生产中是一组矛盾的词。因为实现高产的前提条件是要有一定的生物量,而一定的生物量,必须要有一定的生长周期,生长周期短,生物量小。所以,一般条件...
日期:10-27
马斯克删推特账号 新闻_把警告当耳边风 马斯克被爆强推付费认证导致推特失败
凤凰网科技讯 北京时间11月15日消息,据科技新闻网站Platformer报道,就在埃隆·马斯克(Elon Musk)准备推出售价8美元的蓝V付费认证服务Twitter Blue之前,推特内部团队已经警告他...
日期:11-25
G9药效稀释 小鹏越卖越亏何时休
Fast Reading■营收增长失速,亏损持续扩大,小鹏增收不增利的“病情”愈发严重。Q2小鹏交付增速首次跌破三位数,净亏损同比扩大126.1%。毛利率也降至个位数,与何小鹏设定的25%毛...
日期:08-25
马斯克发推特说市值_进门就炒了领导层 收购推特后的马斯克要快乐了
美国时间 10 月 26 号下午。嬉皮笑脸的马斯克,抱着一个大水槽,摇摇晃晃走进一座大楼。在他的右侧,是一个巨大的推特标志。毫无疑问,这是推特总部。紧接着,推特停盘,进入私有化。看...
日期:11-02
飞行汽车?它不一定非要和汽车扯上关系「飞行汽车和飞机有什么区别」
飞行汽车成了新风口。从小鹏这样的造车新势力,到大众这样的老牌车企;再从波音空客这样的飞行器制造商,到Lilium 这样的飞行器初创企业,飞行汽车产业涌进了两股力量的新老血液,科...
日期:09-30
索尼豪言明年出货3000万台PS5,玩家凭什么买账?「索尼官方为什么不卖ps5」
最近,有消息称据报道,索尼预计明年内将出货约3000万台PS5游戏机。这意味着索尼可能乐观地认为其供应问题将在2023财年大幅改善,可是索尼哪来这股自信玩家会买单呢?一位游戏业内...
日期:10-16
回港上市能“治好”腾讯音乐的竞争“焦虑”吗?「腾讯音乐股价会涨吗」
200万摄像机h.265存储空间文|第七笔画来源|博望财经在诞生的第六年,纽交所上市的第四年,腾讯音乐决定回归港股。2022年9月15日,腾讯音乐发布公告称,将以介绍方式于香港联合交易...
日期:09-24
越贵越亏,共享充电宝注定赚不了钱?_共享充电宝亏本
来源 | 伯虎财经(bohuFN)作者 | 东篱夏天刚缉拿完“雪糕刺客”,秋天又来了个“充电刺客”。近日,共享充电宝又涨价的消息冲上热搜,从早期的0.5元/小时集体跨入“4元时代”,一些热...
日期:10-04
《三体》动画:不要飙车不要飙车不要飙车
作者 | 木子童编辑、制图丨渣渣郡本文首发于虎嗅年轻内容公众号“那個NG”(ID:huxiu4youth)。在这里,我们呈现当下年轻人的面貌、故事和态度。一鸽三年,《三体》动画版终于面世了...
日期:12-16
安全隐患未除 为啥各方对这个新兴产业跃跃欲试_目前存在的安全隐患
一名正在使用导航行驶的司机,如果车机中控屏突然弹出广告信息,会是什么感受?微软提供了薪资 offer没发上海的阮女士是一位奔驰EQC350车主,她于2020年购入了这款刚上市不久的纯电...
日期:10-19
国产App最烦人的操作 又卷土重来了_国产app太臃肿
坏了,恶心人的骚操作又回来了。说起手机广告,大家应该都很熟悉了,这几乎是国产应用生态下的一大特色。首先是国内的厂商们,会给自家的安卓定制UI增加一些系统App和广告。为了不...
日期:10-30
比芯片自主更迫切,车用操作系统难在哪里?「车机芯片和自动驾驶芯片」
图片来源:每日经济新闻 魏官红 摄10月11日,汽车9月销量榜出炉。根据乘联会发布的数据,9月乘用车市场零售销量为194.7万辆,其中新能源汽车达到61.1万辆,创近5年的月销数据新高,渗透...
日期:10-16
“上市即巅峰”,金山云缘何沦为字节“打工仔”?
金山云(NASDAQ:KC)正在以肉眼可见的速度陨落。了解金山云的都知道,背后的老板就是雷军,其通过实际控制的金山软件(3888.HK)、小米集团(1810.HK)合计持有金山云股份超六成。雷军曾放言...
日期:09-16
中国造车要把百年车企按在地上打?你别说,我看有戏「中国造车寸步不让」
1901 年,慈禧的66岁大寿,袁世凯送了她辆汽车。她在故宫院里绕了一圈后感慨道:“ 这车得吃很多草吧。”这是个真实的笑话,但背后是中国汽车工业落后的开始。当 1956 年中国第一辆...
日期:10-11