您的位置:首页 > 互联网

互联网App连串崩溃背后:小规模“崩了修好”常发生_互联网app公司

发布时间:2023-12-07 18:05:54  来源:互联网     背景:

互联网的世界近期风高浪急,难得的是“可靠”二字。

12月5日,当第一财经记者向一位云计算行业人士询问近期密集发生的App崩溃事件时,他转来刚刚发生的阿里云客户通知信息——又崩了。

官方页面信息显示,北京时间2023年12月5日10:15起,阿里云监控发现国内部分地域RDS(关系型数据库服务,Relational Database Service)备份恢复页面访问异常,经过阿里云工程师紧急处理,异常已于10:36恢复。

该人士对记者表示,互联网基础设施服务必然伴随不稳定性,“崩了”经常发生,只是看有没有被外界大范围注意到。但是像近期滴滴App如此大规模、广范围的负面影响,还是极少发生的。

互联网App“崩了”是常事

第一财经记者梳理发现,今年以来,包括阿里、腾讯、百度、滴滴、抖音、B站等各大平台均发生过“崩了”事件。

12月3日晚,腾讯视频“崩了”登上微博热搜。腾讯视频方面回应称,出现了短暂技术问题,正在加紧修复,各项功能在逐步恢复中。

11月27日晚间,滴滴App系统发生故障,全国大面积崩溃,服务无法正常使用。11月29日,滴滴方面发表声明称,各项服务已经恢复,初步确定,这起事故的起因是底层系统软件发生故障,并非网传的“遭受攻击”。目前滴滴App的所有服务已经全部恢复。因这起事故给大家造成的困扰和问题,正在加快妥善解决。后续将深入开展技术风险隐患排查和升级工作,全面保障服务稳定性,尽最大努力避免类似事故再发生。

作为月活破亿的社交平台,B站此前多次因为“崩了”登上热搜。

互联网应用app

据记者不完全统计,B站在今年“崩了”两次,最近一次是在今年6月28日,当天下午不少用户反映“B站崩了”,该词条随后登上热搜。此次受影响的主要是番剧和影视页面,用户反映“追番一直提示获取视频内容失败”“显示页面加载失败”“看番看一半加载不出来”。该问题持续一小时左右,对于此次崩溃原因B站未有具体解释。

互联网app砸钱模式

利用亚马逊做代购

2023年3月5日20:20左右,在B站用户活跃的高峰期,许多网友发现B站手机和电脑端均无法访问视频详情页,当晚B站团队在出现故障20分钟后解决了问题。多位行业人士倾向于原因是“迭代更新出现代码故障”,这是2021年7月B站大规模服务器崩溃后的官方解释。

RTX 3090显卡

2021年7月13日或许是B站目前最大规模的服务器崩溃,当晚B站的手机和电脑端彻底无法使用,用户界面显示404或502,此次崩溃引发全网大讨论,一度登上热搜第一。14日凌晨2点20分,崩溃情况持续约3小时后,B站公告表示服务已陆续恢复正常,并道歉解释称是因为B站的部分服务器机房发生故障,造成无法访问。

2022年7月12日,B站技术团队官方账号“哔哩哔哩技术”发了一篇技术解析长文《2021.07.13 我们是这样崩的》,根据这篇文章的分析,服务器崩溃原因是当时新上线的代码函数存在问题,最终导致服务器CPU占满无法处理用户请求。

文章中提到,2021年7月13日22:52,SRE(负责站点可靠性的工程师)收到大量服务和域名的接入层不可用报警,客服侧开始收到大量用户反馈B站无法使用,甚至App首页也无法打开。基于报警内容,SRE第一时间怀疑机房、网络、四层LB、七层SLB等基础设施出现问题,紧急发起语音会议,拉各团队相关人员开始紧急处理。

互联网app靠什么赚钱

经过原因排查后发现,B站出问题的模块是在线业务主机房的7层 SLB(负载均衡服务器,用来处理多用户、多业务的情况)的CPU跑满了100%,无法处理用户请求,问题最终被定位到了最近新上线的 Lua(一种编程语言)函数上,这个函数因为代码错误运行出错陷入死循环导致过载。

技术维稳谨慎当先

如果不是滴滴的长时间崩溃造成大范围的负面影响与讨论度,非行业人士不会将某款软件的暂时“崩了”作为热点讨论。

万博智云CTO孙琦对第一财经表示,滴滴事件仅是一个个案,但该事件故障级别较大,确实影响到了一定规模普通群众的生活。实际上,很多用户看不到的软件故障正在每天发生,这在行业内是一个较为常见的问题。

一位软件工程师告诉记者,目前随着行业技术的逐渐成熟,各大厂一般都会自建数据中心,云服务也多采用多云策略,配有标准容灾机制,出现崩溃问题大多发生在自身算法、硬件,或自身技术团队层面。

以B站崩溃为例,其技术团队在解读文章中表示,运维团队做项目有个弊端,开发完成自测没问题后就开始灰度上线,没有专业的测试团队介入,“此组件太过核心,需要引入基础组件测试团队,对SLB输入参数做完整的异常测试。”

对于后续改进,B 站技术团队认为要“招专业做LB的人”,“我们选择基于Lua开发是因为Lua简单易上手,社区有类似成功案例。团队并没有资深做Nginx组件开发的同学,也没有做C/C++开发的同学。”

此外,文章里还提到,“B站一直没有NOC(网络操作中心)/技术支持团队,在出现紧急事故时,故障响应、故障通报、故障协同都是由负责故障处理的SRE(网站可靠性工程师)来承担。如果是普通事故还好,如果是重大事故,信息同步根本来不及,所以事故的应急响应机制必须优化。”

另以滴滴事件为例,多个独立信源向记者发来一份讨论截图,称一个规模非常大的K8s 集群进行在线热升级,因为某些原因,所有 Pod(容器)损坏,而 K8s 的元数据已经被新版本K8s 修改,无法回滚,因此恢复时间拉得很长。K8s(Kubernetes)是一个开源的容器编排平台,可以自动化地部署、扩展和管理容器化应用程序。

云猿生数据创始人兼CEO、前阿里云数据库总经理曹伟在其个人公众号发文解读称,该说法并非毫无依据。滴滴团队近两个月正将公司内部的 K8s 从1.12版本升级到1.20。前者于2018年9月发布,后者是2020年12月,对高速发展的K8s项目来说,两个版本间存在相当大差距。K8s 官方推荐的方法是沿着一个个版本升上去。但滴滴团队认为多次升级风险更高,采取了跨越八个版本直接升级策略,同时为了避免中断业务,在不重启容器的情况下原地升级,滴滴团队还修改了kubelet 的代码。曹伟认为该策略理论上可行,但中间可能遭遇到意外因素,如运维误操作,才导致了最终的大规模故障。

曹伟的建议是,当一个集群规模很大时,很容易在意想不到的地方发生类似的问题,那么在设计系统时,应把集群的规模控制在一个合理的范围,但扩大集群数量。

例如,可以把两个一万节点的集群拆成十个两千节点的集群,管理成本没有增加,而运行风险和(故障的)爆炸半径得到极大的降低。

11月12日,阿里云出现了一次影响所有区域的全局大故障。以这次阿里云的史诗级故障为例,曹伟称,对象存储的关键路径里依赖看RAM(内存)的鉴权逻辑,因此RAM出现故障时,也造成了对象存储的不可用。因此,数据面的可用性如果和控制面解耦,那么控制面挂掉对数据面的影响很轻微。否则,要么要不断去提高控制面的可用性,要么就要接受故障的级联发生。因此总结来说,曹伟建议各平台技术团队尽量做到控制规模、避免单点、拥抱重启、保证数据面的可用性和控制面解耦。

孙琦对记者表示,如今各大互联网平台基础架构层已经很成熟,极少出现因技术革新导致影响整个架构的事故,但在现有技术支撑、业务并发量不会暴涨的情况下,在团队稳定的前提下,类似问题理应不会频繁出现。


返回网站首页

本文评论
苹果CEO库克:将捐款帮助受冠状病毒影响人群(比尔盖茨基金会 冠状病毒向中国捐款)
  1月25日晚间,苹果公司CEO蒂姆·库克(Tim Cook)发布微博称,Apple将向相关组织捐款,以帮助受冠状病毒影响的人群。 移康叮咚mini官网苹果se有32g内存的吗天猫快递连锁加盟...
日期:04-16
国资委批复中国移动控股启明星辰_数字中国,启明星辰集团新的愿景
2023/5/22 08:19 国资委批复中国移动控股启明星辰  南山 C114讯 5月22日消息(南山)启明星辰发布公告,公司向特定对象发行A股股票事项(以下简称“本次发行”)已经公司第五届...
日期:05-26
Win11下锐龙7000游戏性能变差?AMD回应:正在调查「锐龙1700玩游戏」
AMD的锐龙7000上市已经有段时间了,性能评测也有国内外大量科技媒体、KOL及网友自己的实测,每家的结果都不尽相同,这本来很正常,但也有一些情况已经争议到AMD都要站出来说话了。...
日期:10-30
京东股价涨超7%_京东股价暴涨
【】3月31日消息,今日京东港股大涨7.72%,报175.8港元。gartner iaas市场份额天猫双十一卖车中国广电5g192号段vivo x23手机屏京东集团在港交所发布公告,称拟分拆旗下京东工业和...
日期:10-04
联发科称智能手机价格今年将降到100美元吗_联发科称智能手机价格今年将降到100美元
  据国外媒体报道,向中国提供手机芯片的最大的供应商联发科的技董事长兼首席执行官蔡明介说,智能手机价格在降到100美元以下时将普及到新兴市场的大众市 场。他在接受采访...
日期:07-29
苹果se刘海屏「配6.1英寸刘海屏!iPhone SE 4曝光」
据Macrumors报道,根据显示器供应链顾问(DSCC)分析师Ross Young的说法,第四代iPhone SE将配备6.1英寸LCD显示屏,并在显示屏顶部有一个“刘海”。Ross Young表示,他已经修改了对第四...
日期:10-28
小米12T Pro真机泄露:2亿像素主摄加持 搭载三星HP1传感器_小米10pro1亿像素传感器
日前小米官宣,将于10月4日举行全球发布会,届时以小米12T系列为代表的多款新品将正式与大家见面。随着发布会的日益临近,外界关于该机的爆料也更加密集。现在有最新消息,继外观渲...
日期:10-01
给世界一个更优选择-华为新一代分布式数据库GaussDB解析_华为分布式架构
【】6月7日,华为全球智慧金融峰会2023在上海开幕,华为常务董事、华为云CEO张平安在峰会上正式发布新一代分布式数据库GaussDB。新一代分布式数据库GaussDB具备高可用、高安全...
日期:09-25
蚂蚁CTO倪行军谈大模型研发:会采取前瞻探索审慎应用的原则_倪行军担任蚂蚁金服cto
6月21日消息,今日有消息称蚂蚁集团正在推进语言和多模态大模型研发,蚂蚁集团已确认:消息属实。win11升级bug曝小米12t pro将首发2亿像素主摄优酷 股份蚂蚁集团CTO倪行军表示蚂...
日期:06-21
微信视频弹幕都在发什么?我们为此扒了13万条弹幕 | 中国微信500强月报(2020.08)
本期看点:“杭州交通918”重返榜首;“泉道” 首夺升幅榜桂冠;深圳时刻文化旗下“有趣青年”和“时尚青年”入选全“100000+”阵营;“海报时尚”连续 7 月蝉联原创榜首;“研报...
日期:08-01
当心上当!抖音生活服务声明:多地出现虚假“外卖招商”「抖音生活号是什么意思啊」
2月24日 消息:抖音生活服务发布声明称,近期抖音生活服务接到举报,多地出现不法机构冒用我司签约服务商或“独家代理”“区域/城市代理”的名义,开展“外卖招商/城市合伙人(城市...
日期:02-25
抖音外卖上线全国100城?回应:并未向上述城市的全部商家开放「抖音外卖功能什么时候上线」
7月12日消息,有媒体消息称,抖音外卖上线新城市加速,100个城市用户可以点餐到家。据报道,进入7月后,100个城市的用户第一次可以进入抖音点外卖,其中包括深圳、杭州、武汉、南京等大...
日期:07-12
CommonCanvas:一种使用创意共享图片训练开放扩散模型的方法
核心要点:叮咚买菜2020年销售额研究团队提出了一种使用创意共享图片训练开放扩散模型的方法,以克服高质量数据和版权问题的挑战。他们使用迁移学习技术创建了合成标题,与精选...
日期:11-02
文都持续提升安全系数 资本加持下考研教育市场有望长出独角兽
  2020年以来,受疫情影响,全国近百家教育培训机构“倒闭”“跑路”,其中不乏知名钢琴培训机构星空琴行、英语培训四巨头韦博英语、经营近20年的老牌培训机构优胜教育以及在...
日期:07-16
moto razr 40开售:3999的折叠屏卖疯了_motorazr折叠手机
早上10:00,摩托罗拉将正式推出全新的折叠屏手机moto razr 40,起售价为3999元,这也是目前市场上最便宜的小型折叠屏手机。小鹏汽车G3 520在外观设计上,moto razr 40非常轻巧纤薄,...
日期:06-25
微博将于9月1日发布2022年第二季度财报_微博将于9月1日发布2022年第二季度财报解读
查看最新行情   中国北京/2022年8月16日— 专供人们创作、分享和发现内容的领先社交媒体平台微博公司 (NASDAQ GS: WB; HKEX: 9898) 定于美国东部时间...
日期:08-19
阿里巴巴:股东软银将提前结算的预付远期合约涉及最多本公司约2.42亿股ADR
华硕笔记本oled屏美国智能手机销量排名 查看最新行情   讯 8月10日下午消息,阿里巴巴在港交所发布公告称,本公司股东软银今日宣布,其董事会已批准提前股份...
日期:08-11
爱奇艺会员分销「爱奇艺10月1日起增设会员拉新分账、取消平台定级」
  9月28日,爱奇艺宣布,10月1日起,爱奇艺剧集、动漫、儿童、纪录片领域将正式应用全新分账合作模式。新模式将在原会员观看时长分账基础上,增加会员拉新分账。同时,取消平台对内...
日期:10-01
LV总裁带儿女现身北京巡店 对中国市场十分乐观「lv现在的老板是创始人的后代吗?」
6月27日,曾经登顶世界首富、法国奢侈品巨头LVMH集团的掌门人贝尔纳·阿尔诺来到北京,视察了主要商圈的门店,他的女儿和小儿子也陪同他一起。在埃隆·马斯克和比尔·盖茨相继访...
日期:06-29
2022宝马x2换代最新消息「要买宝马X2的抓紧了! 9月即将停产 换代车型无缘国内市场」
快科技8月28日消息,日前,我们从宝马官方获悉,国产轿跑版SUV X2将于今年9月正式停产,作为换代车型的宝马iX2、X2车型也并未打算进入国内市场。这一决定,将意味着宝马X2未来将彻底...
日期:08-29