您的位置:首页 > 互联网

超燃!支付宝技术双11纪录片《一心一役》全球独家首发

发布时间:2017-09-27 16:17:19  来源:互联网     背景:

  和过去10年一样,2019年天猫双11又创造了一个全新的纪录。

  这个数字背后,是数代支付宝工程师们殚精竭虑、不断突破技术难关。

  对于技术人员来说,维持双11全天24小时稳定流畅固然不易,但最为考验的时刻当属零点刚过,人们操起手机,刷新早已存好的购物车,点击支付的那一刻!

  11年,零点越来越平滑的双11购物背后,支付宝有过哪些不为人知的技术探索,今天也特别放送。

  一、从外部瓶颈说起

  事情从一开始就显得不是很顺利。

  2011年的双十一,在高峰时期少数用户无法付款,经过调查发现,这是因为少数银行的网银系统在压力下出现故障。早年的支付宝交易,用户点击支付后需要从支付宝和银行的接口去付款,而早年这个接口的性能很差,每秒只能支持几十到上百笔交易,稳定性也比较差,一旦流量上来,容易发生故障。

  如果不解决这个问题,今后的每次大促都会出现无法付款的情况,极大影响用户体验。但是,这个问题单靠技术是很难解决的,银行对网银系统的演进有自己的规划,支付宝无法去干涉它们的系统。

  不过,聪明的运营人员想出了一个变通的办法。在2012年的双十一,支付宝通过活动吸引用户先充值后付款,让用户先将钱充值到支付宝余额上,到双十一直接从余额里面扣款就行,这样,外部的瓶颈就被转换到内部了。这样做效果非常显著,付款失败的问题大为缓解。

  然而,外部的瓶颈始终存在,面对每年翻倍提升的流量峰值,支付对外部的依赖始终是一个隐患,不知道什么时候就会爆发。

  解决这个问题最好的办法,就是不通过网银,让资金在内部的系统中流转,先充值后付款就是这个原理。那么,有没有一个方法,吸引用户把钱放到支付宝里呢?2013年6月,支付宝推出余额宝,歪打正着的解决了这个问题,到2014年底余额宝就吸引了1.85亿用户,在13年和14年的双十一,交易峰值也分别实现了4倍和3倍的增长。

  2018年5月,支付宝接入网联清算平台,同时在这些年里,银行也在大力提升自己的系统能力,中大型银行的网银系统支持的交易笔数已经达到2万笔/秒以上,外部问题基本得以解决。

  解决了外部瓶颈之后,支付峰值的数字能有多高,就看支付宝的系统如何化解一年比一年更凶猛的流量洪峰。

  二、容量规划:三军未动粮草先行

  事实上,支持交易笔数峰值面临的首要问题,并不是设计一个完美支持横向扩展的架构,而是对可能的流量峰值进行准确估计,然后安排对应的机器和资源。如果不做估计,可能发生两种情况:预备资源过多,架构过度设计,造成资源浪费;预备资源过少,无法完美支持大促,造成部分支付排队或失败。每年双十一备战,负责大促的决策团队会根据历史数据、大促目标来拟定一个交易数值,然后将这个数值拆解为各个系统所需要应对的流量,从而进行系统容量规划。

  双11大促的场景指标一般包括交易创建数、收银台展现数、交易支付数。总的支付目标数已经有了,运维人员根据总tps/单机tps的算法计算出应用在每个指标下的单机能力,然后,参考历史活动数据,可以计算应用在不同场景链路下的单机tps。

  但是,这种做法人工干预较多,对于各个应用的容量预估的粒度比较粗,后来,支付宝又建设了容量分析平台,可以进行自动化的细粒度的容量分析。

  它的原理是,如果我们把一个链路理解为一个业务,链路根节点可以理解为业务的源头流量请求,每个链路上的节点(这里的节点包括应用、DB、tair等)都能计算出该节点调用次数相对于根节点流量的系数。因此,当业务源头的QPS确定时,就可以基于链路数据,计算出每个节点的QPS。

  2018年的双十一,支付宝还建设了智能容量模型,不但可以根据业务流量进行容量预估,还可以智能的产出应用资源部署方案,使得在该方案下,部署单元在承载给定业务流量时的容量水平处于目标范围。

  智能容量模型是支付宝对AIOps探索的一部分,也是对数据技术和人工智能在系统中落地实践的一部分,这方面也是当前支付宝技术探索的方向之一。

  三、LDC与弹性架构:大促最强武器

  对流量进行预估并进行合理的容量规划之后,接下来就看我们的架构是否能支持流量峰值了。

  首先需要说明的是,流量高峰涉及到一个系统的方方面面,支付宝的整个系统极其复杂,而且面向toC和toB都推出了很多业务,即使只关注核心支付系统,也包括支付清算、账务、核算等子系统。

  系统部分组件由通用型的中间件提供支撑,如负载均衡中间件LVS/Spanner、阿里巴巴的分布式缓存中间件Tair等,其它则由支付宝自研的SOFAStack金融级分布式中间件负责。

  支付峰值的本质是一个高并发问题,互联网公司解决高并发的思路是横向扩展水平拆分,用分布式的方式来应对流量洪峰,支付宝也不例外。支付宝很早完成了服务化架构和核心数据库的水平拆分,成功应对了前几年的双十一。

  分布式系统示意图

  这个架构的问题是,所有子应用都需要访问所有数据库分库,但是数据库连接是有限的。当时主流的商业数据库,连接都不是共享的,就是说一个事务必须独占一个连接。而连接却又是数据库非常宝贵的资源,不能无限增加。当时的支付宝,面临的问题是不能再对应用集群扩容,因为每加一台机器,就需要在每个数据分库上新增若干连接,而此时几个核心数据库的连接数已经到达上限。应用不能扩容,意味着支付宝系统的容量定格了,不能再有任何业务量增长,别说大促,很可能再过一段时间连日常业务也支撑不了了。

  这个问题迫在眉睫,从2013年开始,支付宝开始新一轮的架构改造,实施单元化的LDC逻辑数据中心,双十一的流量峰值,终于还是成功的扛下来了。

  一个单元,是一个五脏俱全的缩小版整站,它是全能的,因为部署了所有应用;但它不是全量的,因为只能操作一部分数据。这样,只要将数据分区增加单元,就可以提升整个系统的处理性能上限。

  单元化示意图

  但是,并不是所有的数据都能拆分,比如部分底层数据是全局数据,所有单元的应用都需要访问。并且,支付宝经过近十年建设,有些架构也并不能很好的拆分成单元。在这个前提下,支付宝设计了CRG的单元化架构,既能利用单元化的优点,也能支持现有的架构。

  RZone(Region Zone):最符合理论上单元定义的zone,每个RZone都是自包含的,拥有自己的数据,能完成所有业务。GZone(Global Zone):部署了不可拆分的数据和服务,这些数据或服务可能会被RZone依赖。GZone在全局只有一组,数据仅有一份。CZone(City Zone):同样部署了不可拆分的数据和服务,也会被RZone依赖。跟GZone不同的是,CZone中的数据或服务会被RZone频繁访问,每一笔业务至少会访问一次;而GZone被RZone访问的频率则低的多。CZone是为了解决异地延迟问题而特别设计的。

  CRG架构示意图

  关于支付宝单元化和LDC的更多信息可查看这篇文章。

  实施了LDC之后,系统容量实现水平扩展,顺利支持了2013年及之后的双十一流量洪峰,并且系统不再受到单点故障限制,经过完善之后还做到异地多活,最终形成了三地五中心的金融级架构。

  理论上,只要无限扩展LDC的计算资源,就可以应对无限大的流量,但是,这样做的话,大部分机器只有在大促时才能派上用场,平时就是闲置的,造成资源浪费。最好能做到平时用少量资源支持常规流量,大促时经过容量规划,提前启用部分空闲或第三方资源应对高峰流量,这就是弹性架构的由来。

  2016年,支付宝开始为大促进行弹性架构的改造。弹性架构基于业务链路,因为大促时只有部分链路的流量激增,因此只需要针对大促关键链路进行弹性扩容即可。

  弹性架构涉及到多个层面的改造,首先是弹性机房和弹性单元,需要在LDC逻辑机房架构上按照业务纬度继续切片,保证单片业务可以独立逻辑单元部署,并保持与非弹性单元的联通性,并且可随时弹出和回收。

  其次是弹性存储,包括流水型数据和状态型数据的弹性。流水型数据包括支付订单,为了支持这些数据的弹性,创建了弹性位+弹性UID,然后路由根据弹性UID将订单分配至弹性单元中进行处理。状态型存储比如用户的账户余额,进行整体弹出,具体实现方式是通过DB层的主备切换,将主库压力分流至备库。

  然后是中间件层面的改造,包括路由、RPC、消息队列、流量管理等等。应用层面也需要进行相应的改造,因为每个弹性单元需要做到独立逻辑单元部署,因此需要从服务到数据进行梳理并剥离,同时添加弹性id等弹性逻辑处理。

  除了这些之外,还需要对运维平台、压测工具进行相应的改造。

  2016年弹性架构上线后,成功支撑了当年双十一,满足大促要求和预定目标,节省了机房物理资源,成为应对大促类流量洪峰最有力的武器。

  弹性架构里的弹性单元都是新增的集群,但其实还可以进一步的提高资源利用率。方法就是离在线混部技术,因为有些集群是用作离线的大数据分析,但并不是全天24小时都满负荷工作,当没有任务时,集群资源利用率极低。如果将离线的应用和在线的业务应用部署在一起,让大促高峰时段能够利用这些资源,就可以减少大促期间采购的资源,进一步节省成本。混部技术需要运维的分时调度配合,在不同的时段将资源分配给不同的应用。

  从2017年起,支付宝开始尝试离在线混部和分时调度技术,在大促时利用离线技术所使用的集群资源,大大提升了集群资源利用率。

  四、百万支付:解决数据库扩展瓶颈

  2016年的双十一,交易笔数峰值达到12万笔每秒,这场高并发之战仍在继续。前面提到了很多应对大促的技术手段,但其实漏掉了一个最重要的部分,那就是数据库。在流量洪峰时,受到压力最大的就是数据库。这是因为,在前台我们看到是一个成功交易,但拆解之后,一个交易可能平均要产生数百甚至上千个请求,数据库的压力要远远大于我们所能看到的数字。

  从最开始,数据库就一直是支付宝系统的瓶颈之一,在之前,其实已经配合架构改造对数据库做了诸多升级,除了上面提过的弹性化的改造,还包括:

  1. 分库分表,将原有的交易账户库分离为交易库和账户库,并通过分布式事务解决数据一致性问题。

  2. 数据库水平拆分,将所有的用户按照1%粒度分为100份,配合单元化的逻辑隔离。

  3. 数据库读写分离、多点写入、数据复制,通过这些方式,可以大大提升性能。

  早年支付宝采用的商业数据库能进行的改进是有极限的,为了成本考虑,不可能为了一年仅仅几天的大促活动去采购额外的数据库系统和设备。

  早在2014年的双十一,支付宝自研数据库OceanBase就开始承担10%双十一核心交易流量,随后一步步承担交易、支付、账务等核心系统的100%流量,经受住了极端条件下的严苛考验。

  OceanBase从第一天开始,就计划成为一个分布式的关系数据库,也就是天然支持大规模和高并发的场景。但是,支付宝本身的用户体量太大,再加上双十一所面临的的系统压力太大,到2017年双十一的时候,即使采用了额外的弹性库,数据库CPU压力也接近上限,成为继续扩容的瓶颈所在。

  2018年的双十一,支付宝在内部提出了百万支付架构,意思是这套架构可以支持百万笔/秒量级的系统压力。而这套架构的核心,就是OceanBase 2.0分布式分区方案。

  过去架构下的DB扩展,由于DB单机存在极限,且一个UID最多对应一台机器,所以这里的扩展能力是通过DB新增集群,应用加数据源来实现的。这就会带来一系列的问题,比如应用的内存增长、多数据源导致弹出弹回费时费力、多个DB集群的日常维护成本高等。为解决这个问题,考虑让DB也能像应用一样可以动态扩容,且必须突破一个UID最多一台机器的限制,从而能达到应用和DB同步扩容,不用增加新DB集群就能达到新的容量支撑能力。

  由此,基于DB的分区功能,将DB的扩展性大大增强,避免了必须增加集群来扩容的尴尬。同时对应用进行了相关的升级改造,如全站流水号架构的升级,系列中间件的改造,以及任务捞取场景的改造等。

  OceanBase分区架构

  传统数据库弹性架构,将数据进行物理拆分到不同机器,业务在数据访问/研发/后期维护及数据配套设施上非常繁琐;同时拆分后资源很难快速回收,且数据拆分及聚合无法实现业务无损。相比于传统数据库的弹性架构,OceanBase 2.0架构完全不侵入业务,内部通过分区实现数据分片的自组织及负载均衡,通过生成列及分区规则实现自动路由,通过分区聚合(partition_group)消除分布式事务性能开销以提升性能,从而实现无损线性伸缩。另数据分片间share_nothing的架构,实现分片故障隔离及单点故障消除的高可用架构。

  2018年双十一,OceanBase 2.0成功上线,并支持了交易和支付的全部流量。并且,基于OceanBase2.0分区方案的这套架构可以轻松扩展到支持百万级交易,关于应对流量洪峰的战役暂时告一段落。

  五、技术保障:大促技术标准化

  双十一是新技术的演练场,那么怎么确定这些技术能有效支撑流量高峰呢?特别在支付宝,涉及到人们的资金安全,一旦发生问题后果极其严重,更是要慎之又慎。

  2014年,支付宝上线了全链路压测,成为系统化技术验证的神器;从2017年起,支付宝开始打造自动化和智能化的技术风险防控体系;2018年的双十一,大促中控上线,大促相关的技术开始走向标准化。

  大促中控示意图

  大促中控也就是一站式的大促保障解决方案,它的目的,就是将之前大促的经验沉淀下来,形成套路和规范,最终向无人值守方向发展,搞大促不需要技术人再熬夜了。

  有了大促中控,可以进行自动化的无损压测,线上压测能得到想要的结果的同时,不影响正在进行的业务。它的核心技术能力是对环境、机器、线程的隔离,以及在压测异常时的智能熔断。

  压测并不是万能的,有些问题可能在压测中难以暴露,从2018年起,支付宝还展开了红蓝攻防演练,为了在大促峰值出现异常时,检查应急策略、组织保障、响应速度是否到位,以及验证新技术的稳定性是否达标。

  对于大促中的资金安全,支付宝自研了实时的资金核对系统,实现峰值的资金安全实时验证,验证每一笔资金准确无误。

  当所有技术准备就绪并不是就可以了,每次大促之前还有很多配置需要切换,一旦出错就会造成严重影响,因此支付宝打造了面向终态的技术风险巡检能力,在大促前一天进行成百上千的配置自动化检查,确认所有系统进入大促状态,确保万无一失。

  随着时钟渐渐指向零点,大促一触即发。

  六、未来可期,我们一路同行

  总结起来,双十一流量峰值考验的是架构的可伸缩性、数据库的承载能力、运维的强大调度能力,以及完善的技术保障能力。为了确保大促顺利完成,需要做的技术准备也远远不只文中提到的,诸如全链路压测这样的幕后功臣还有很多,由于篇幅所限,这里就不再一一介绍了。

  支付宝也在持续更新着自己的技术装备库。今年的双十一,支付宝也有几项新能力得到实战检验:OceanBase 2.2上线,该版本在TPC-C基准测试中取得第一名,平稳支撑了新大促;自研的Service Mesh 首次登上大促舞台,目前已经 100% 覆盖支付宝核心支付链路,是业界最大的 Service Mesh 集群。

  点击链接观看《使命必达——OceanBase登顶TPC-C测试》https://v.qq.com/x/page/l3019boh97i.html

  随着普惠金融的落地,以及万物互联的发展,支付平台面临的流量压力会进一步提升。现在我们看到的峰值,未来也许稀松平常;未来的峰值,也许比今天还要高几个量级。支付峰值这场战役仍会继续下去,其中的技术也将不断的更新进化,未来双十一的技术之战将更加精彩。

超燃!支付宝技术双11纪录片《一心一役》全球独家首发

阿里能源互联网


返回网站首页

搜狗AI主播

老虎证券IPO


从Wireshark抓包看HTTPS的加密功能
科沃斯AI论文入选全球顶级机器人学术会议IROS 相关成果产业界首发

三星s6edge蓝色

携号转网哪家运营商最受益

微信公益捐步

中智行:“车路协同”将助力中国在自动驾驶领域做到世


返回网站首页

本文评论
不会智能语音录入的表情包不是好输入法
年轻人喜欢Diss,Diss周一早会上收到的一分钟长语音信息,Diss“手癌”闺蜜慌慌张张打出......
日期:09-30
iphone 12 pro市场价「iPhone 14 Pro相机成本高昂:苹果大概率要涨价」
8月31日消息,据分析师郭明錤爆料,苹果iPhone 14 Pro相机成本大涨,因此苹果大概率要提高iPhone 14 Pro售价。据悉,iPhone 14 Pro除了主摄升级到4800万像素之外,还升级了超广角镜头...
日期:09-06
京东:截至2022年6月30日年度活跃购买用户数5.808亿,同比增长9.2%_累计下单金额创下2015亿元之后,京东在年末11.
查看最新行情   讯 北京时间8月23日晚间消息,京东(Nasdaq:JD;HKEX: 9618)今日发布了截至6月30日的2022年第二季度财报。财报显示,该公司第...
日期:09-08
打造AI健康管理闭环 平安科技上线情绪管理机器人“平荷正念”
  如今,国内疫情防控形势继续积极向好,随着新冠肺炎的治愈者越来越多,许多人身体上的健康容易管控,心理上的焦虑却难以缓解。总体来说,疫情改变了人们日常的生活习惯,许...
日期:02-13
Meta员工集体炮轰扎克伯格:正在用元宇宙搞垮公司
12月12日消息,据国外媒体报道,最近在美国匿名网络论坛“Blind”上,许多Meta员工将矛头纷纷指向首席执行官马克·扎克伯格,称其对元宇宙的痴迷将“拖垮”整个公司。苹果官方解读i...
日期:12-12
爽就要吼出来——语音微博Symbian版开启你的激情生活
  当iOS和Android用户拿着手机乐享说的愉悦时,Symbian用户可是各种羡慕嫉妒恨。此时,语音微博Symbian版终于发布,为更多智能手机用户带来能听能说的微博。此次发布的语音微...
日期:07-24
魅族推出魅客平台:分享平台内容后产生订单可获得奖励_魅族应用商店红包
  8月6日消息 根据魅族论坛的消息,魅族社区推出了魅客平台,今天开启内测。官方称分享平台内的内容产生有效订单,即可获得奖励。   魅族表示,魅客平台是魅族为回馈热爱魅族...
日期:07-09
我国成功发射遥感三十六号卫星 长二丁火箭30年连胜70发_我国成功发射遥感30号十组卫星
11月27日20时23分,长征二号丁运载火箭在西昌卫星发射中心点火起飞,随后将遥感三十六号卫星送入预定轨道,发射取得圆满成功。此次发射的遥感三十六号卫星,由中国航天科技集团五院...
日期:12-01
机器人“小二”上菜 无接触助力餐企打“战疫”硬仗
  近日,全国各地陆续放开餐企复工,餐饮老板们等待已久的福音终于来临。与此同时,疫情尚未结束,如何在复工期间保障门店的安全运营以及提振顾客的就餐信心,也成为摆在餐饮老板...
日期:12-05
苹果2020四季度财报「苹果公司将于10月27日公布2022财年第四财季财报」
9月29日消息,据国外媒体报道,当地时间周三,苹果公司宣布,将于10月27日公布2022财年第四财季财报。2022财年第四财季,苹果发布了iPhone 14系列手机、Apple Watch Series 8、第二代...
日期:10-01
飞猪旗舰店双11期间上线多款酒店新品「飞猪酒店官方旗舰店」
10 月 28 日消息,双 11 期间,万豪、雅高、万达、洲际、凯悦等酒店集团相继在其飞猪官方旗舰店首发新品。同时,今年万达酒店及度假村有超过 20 款商品在飞猪双 11 售卖,其中北京...
日期:11-02
《华为应用市场2020年度榜单》出炉 你的宝藏应用有没有上榜?(华为应用市场2020新版官方APP)
  1月14日,《华为应用市场2020年度榜单》正式发布,共设有六大榜单类型:年度应用、年度游戏、最受欢迎应用、年度畅销应用、最受欢迎快应用以及还有全场景多终端智慧生活应用...
日期:07-16
科徕尼智能锁系统锁定_科徕尼A81,主动防御的智能锁
  想象这样一个场景:当一个陌生人在你家的门外来回走动超过30s,还不时东张西望,你内心里会不会感到害怕,会觉得此人对你家意图“不轨”吧?   BUT,正在这个时候,门突然发出声...
日期:02-25
神州数码运营商行业再突破!入围2020中移动整机柜采购(神州数码企业移动事业部)
  新春将至,捷报频传。2月9日,中国移动发布《中移动信息2020年一级IT云资源池整机柜定制化服务器采购项目-中标候选人公示》,神州数码集团(000034.SZ)旗下全资子公司——...
日期:07-16
程一笑快手股份「快手内部邮件:王剑伟负责商业化业务 向CEO程一笑汇报」
凤凰网科技讯 11月1日,快手宣布调整商业生态委员会分工,继续向商业生态的可持续健康发展倾斜力量和资源。内部邮件显示,原主站产运线业务负责人王剑伟调任商业化负责人,于越担任...
日期:11-09
苹果新专利曝光:智能戒指配AR
据Patently apple报道,美国专利商标局公布了苹果戒指项目的第二项专利申请。这款智能戒指引入了基于SMI传感器的分拣系统,可以感知物体的存在、距离、运动方向和运动速度。这...
日期:12-03
AMD压力大增 13代酷睿主流平台B760主板偷跑:支持DDR4内存「amd760g主板cpu」
AMD的锐龙7000平台不仅升级了CPU,还带来了全新的AM5主板及DDR5内存,然而就算是主流的B650主板都不便宜,反而是Intel这边的选择更丰富,至少还有DDR4可用。13代酷睿平台中目前也只...
日期:12-02
昇腾人工智能高峰论坛召开,携手伙伴共赢智能新未来(昇腾人工智能高峰论坛)
  [中国,上海,2021年7月9日]今日,以“共筑AI新高地、共赢智能新未来”为主题的昇腾人工智能高峰论坛在上海举行。华为轮值董事长胡厚崑,中国工程院院士、清华大学计算机系教...
日期:01-10
万物皆可演奏打击乐 心疼抖音牛人家里的锅碗瓢盆_抖音打击乐器
  提到打击乐,很多人脑海里都会浮现出演唱会上狂赚酷炫、挥汗如雨的演奏者的形象。可是,在抖音短视频平台上有这样一位大咖@王音睿打动天下,他的个人简介里注明自己是上海民...
日期:07-14
腾讯优图2018三大应用方向梳理 揭秘未来人工智能产业发展趋势
  智东西 文 | 心缘   2018年AI产业波澜丛生,智能化开始深入各行各业,AI落地潮空前火热。腾讯优图实验室在今年的落地潮中表现尤为亮眼,它成立于2012年,专注在图像处理、模...
日期:03-19