您的位置:首页 > 互联网

智能运维AIOps关键技术概览_智能运维从0搭建大规模分布式AIOps系统pdf

发布时间:2022-07-14 05:43:56  来源:互联网     背景:

  传统运维管理的人工及被动响应方式,已经无法支撑数字化业务灵活、快速的发展,要靠智能运维(AIOps)能力来获得数据分析和决策支持。而从传统ITOM到智能运维的演进过程中,需要一系列关键技术的支撑。本文试图就智能运维落地过程所需关键技术点进行概要说明。

aiops运维决策时间

  图片来源:Gartner

  从智能运维的平台架构来看,可抽象为几个层面:数据采集层、数据汇聚层、数据存储层、建模应用层、分析学习层、应用反馈层。这是一个非常理想的层次划分,但在智能运维实践落地过程中,却存在着诸多坑壑,需要我们正视和解决。

  数据采集与传输

  运维数据的产生和采集来自于ITOM监控工具集,通常包括:基础服务可用性和性能监控、网络性能监测与诊断、中间件服务可用性和性能监控、应用性能管理、系统运行日志管理、IT资产管理、IT服务支持管理等。

  这些基础监控工具采集的运行状态数据和运行性能数据,需要具备足够存量的数据和数据增量;以及足够的数据维度覆盖度(时间维度、空间维度、系统级维度、应用级维度等)才能进行建模利用。与此同时,运维数据的时效性强、多维数据源割裂采集的现状、以及如何在后续建模过程中进行多维数据的高效关联,因此智能运维平台对数据采集层提出以下技术要求:

  • 跨平台、跨语言栈、高兼容性的多模式统一采集质量标准;

  • 兼容多种非容器化与容器化运行环境;

  • 一致的维度关联属性;

  • 在资源占用、数据压缩比、时效性之间可权衡、可调节的传送机制;

  • 可靠的熔断和止损机制;

  • 易于部署和维护、统一的配置和任务管理。

  数据汇聚、存储与建模

  数据的增量是迅猛的,或将达到网络的上行极限或磁盘的写入极限,因此对汇聚层的服务自身可用性和吞吐性能要求极高。汇聚层更像“数据湖”,提供元数据限制更为宽松的数据写入和获取途径、简易的数据清洗任务创建与管理、灵活的数据访问控制和使用行为审计、具备从原始数据的发掘中更便利的进行价值发掘、具备更敏捷的扩展特性等。

  同时,在设计汇聚存储层的建设方案时,需要避免数据泥沼、无法自助建模、无法执行权限管控等困境。在智能运维实践落地时,要由一组大数据业务专家/架构师,明确地为汇聚与存储层设计一系列的能力项,这些能力项不仅要满足“数据湖”的诸多特征,还要具备便捷的开发和实施友好性,降低数据接入与抽取清洗的成本,它应该具备至少以下关键技术能力:

  • 多数据源、海量数据的快速接入能力;

  • 元数据提取和管理能力;

  • 极其简易的、高性能的数据清洗转换能力;

  • 可根据数据字典或特征算法对数据进行关键字识别、模式识别的标记能力;

  • 自动的、自助的,对敏感数据进行脱敏或加密处理能力;

  • 对数据质量检验并对质量标准进行归一化处置的能力;

  • 数据可依据某种维度或特征进行所属和应用权限控制的能力;

  • 自动的、自助的,数据建模探索能力;

  • 对已建立的搜索、过滤、关联、探索模型,友好的进行数据输出能力;

  • 自动的、自助的,分布式集群伸缩能力;

  • 对外提供高效、敏捷数据服务的能力。

aiops运维决策时间

  图:DODB逻辑架构(2017-2020)

  云智慧专业运维数据库DODB(Digital Operation Database)正是符合上述设计目标的一款专业运维数据库,基础运行环境搭建在CDH/HDP之上,包含了HDFS、Kafka集群、Zookeeper集群以及Spark集群。

  DODB可方便地进行采集任务的配置和管理,支持数百种数据源,包括日志数据采集、数据库和中间件数据性能数据采集、数十种数据库中表数据采集、数十种数据消息中间件中数据采集等,支持集群部署、中心化配置管理、状态自监控与高效熔断等能力,支持高可扩展性,同时巧妙的解决了数据泥沼和无法自助建模的困扰。

  算法体系建设

  在智能运维(AIOps)落地实践中,算法体系的建设是至关重要的一个环节。算法体系建设方面,应从三个角度来去考虑实现思路:

  • 感知:如异常检测、趋势预测、问题定位、智能告警;

  • 决策:如弹性扩缩容策略、告警策略;

  • 执行:如扩缩容执行、资源调度执行。 

  智能分析系统将感知、决策、执行三个角度落地到智能运维解决方案中,形成发现问题、产生告警事件、算法模式定位问题、根据分析结果解决问题的闭环功能。

  因此,智能分析平台应具备交互式建模功能、算法库、样本库、数据准备、可扩展的底层框架支持、数据分析探索、模型评估、参数及算法搜索、场景模型、实验报告、模型的版本管理、模型部署应用等功能或模块。

  云智慧智能分析平台DOIA(Digital Operation Intelligent Analysis),依托DODB专业运维数据库提供的基础大数据资源,赋予智能运维的能力,包括动态基线、异常检测、根因分析、智能合并、智能故障预测、知识工程等。智能分析平台是产出算法,满足跨平台、多样化的客户现场环境,从最小单元化部署到大规模集群式部署的可行性方案。

  算法和数据的工程融合

  在智能运维(AIOps)平台落地的实践中,算法和数据的融合,第一步是数据的采集和汇聚,通过前文介绍的关键技术,我们已经获得了质量标准归一化的、经过了提取和转换的、时间/空间/业务维度标记清楚的数据,需要补充的是数据预处理相关的核心要点。

  1、数据预处理

  在数据挖掘中,海量原始数据中存在大量不完整(有缺失值)、不一致或有异常的数据,严重影响到数据挖掘建模的执行效率,甚至可能导致挖掘结果的偏差。数据预处理的目的是提高数据质量,从而提升数据挖掘的质量。方法包括数据清洗、数据集成和转换,以及数据归约。

  通过数据预处理,可以去掉数据中的噪音,纠正不一致;数据集成将数据由多个源合并成一致的数据存储,如数据仓储或数据立方;数据变换(如规范化)也可以使用,例如规范化可以改进涉及距离度量的挖掘算法的精度和有效性;数据规约可以通过合并、删除冗余特征或聚类来压缩数据。这些数据处理技术在数据挖掘之前使用,可以大大提高数据挖掘模式的质量,降低实际挖掘所需要的时间。

  需要注意,有些算法对异常值非常敏感。任何依赖均值/方差的算法都对离群值敏感,因为这些统计量受极值的影响极大。另一方面,一些算法对离群点具有更强的鲁棒性。数据分析中的描述性统计分析认为:当我们面对大量信息的时候,经常会出现数据越多,事实越模糊的情况,因此我们需要对数据进行简化,描述统计学就是用几个关键的数字来描述数据集的整体情况。

  2、算法工程集成

  在智能运维(AIOps)算法分析系统中,不同算法对应不同的适配场景,需要根据数据特征模式来选择合适的算法应用。如指标异常算法的应用:针对周期稳定性数据,我们采取动态极限的模型;针对周期不不稳定的数据,采⽤频域分析的模型;针对稳定性的数据采⽤极限阈值判断的模型。通过模型选择的算法,对不同的数据的模型进行适配,达到最优的效果。

  因此,想要以开箱即用的方式、采用某种标准的机器学习算法直接应用,而不考虑业务特征,通常并不可行。

  我们需要首先考虑该组业务指标间的关联性,如果有应用或系统间的调用链或调用拓扑供参考,这是最好不过的。如果没有调用链或拓扑,则需要先根据已知可能的业务相关性,进行曲线波动关联、回归分析等算法分析,获得极限阈值尝试得到因果匹配,通过一系列的事件归集得到相关性,再对每一次反馈进行适应,尝试自动匹配更为准确的算法和参数,才可能达到期望的异常检测目标。

  智能运维的工程化过程,是一个算法、算力与数据相结合,平台自身与业务系统反馈相结合的复杂过程。在与业务场景结合的前提下,灵活的算力组织、高效的数据同步、可插拔的服务化、模型应用过程中的高精度与高速度,是AI工程化本身的核心诉求。

  总结和展望

  智能运维(AIOps)落地的过程中的坑非常多,这是云智慧过去几年大量行业实践得到的真实体验。它对数据平台搭建、数据采集与传输、数据汇聚、存储与建模、数据计算、AI体系化、场景与工程化融合等方面提出了极其苛刻的要求,需要更专业的、更高质量标准的运维数据库,还需要一支强有力的分析、架构和开发团队支撑,才能真正带来生产力的提高。

高驰涛


特别的野餐

方舟开发者

三星galaxy a32 5G

智能运维aiops

百度互联网营销是什么


三星Galaxy note5

广汽埃安融资

三星S6上市价格

谷东科技AR眼镜的光学显示原理和工艺分享
服务型消费正当时!京东618首部手机送达仅用10分钟!

返回网站首页

本文评论
红米k30pro支持66w快充吗「红米K60硬件配置曝光,标配30W无线快充」
中关村在线消息:10月8日,据相关爆料,即将在明年第一季度发布的红米K60系列详细参数已经曝光,新机共将为大家带来两款产品,一款为标准版一款为超大杯,二者均搭载骁龙8+处理器,但在续...
日期:10-14
比特币价格再次跌破2万美元 和去年3月相比下跌58.9%「比特币价格下跌了吗」
9月19日 消息:比特币价格又跌了!美国时间周日,比特币价格下跌至19804美元,与上一个交易日结束时相比价格下跌310美元。根据报价平台CoinDesk的数据,北京时间9月19日8时20分,比特...
日期:09-28
苹果代工厂22中毒员工获赔离职 部分未获赔偿(苹果公司赔偿)
  苏州联建中毒员工张飞微博(腾讯科技配图) (娄池)6月23日消息,曾集体选择全国各地自行体检的苹果供应商联建科技22名中毒员工已于日前集体离职。有消息称中毒员工拿到了几万...
日期:07-30
潮宏基珠宝发布初个非遗花丝数字藏品_潮宏基珠宝有限公司
比较近几年随着元宇宙、web3. 0 概念的兴起以及区块链等技术的发展,全球数字经济进入新的阶梯,这其中数字藏品无疑是很具有代表性的产物,于是各路玩家紧跟也时代潮流,纷纷布局数...
日期:08-24
漏洞银行入选36氪“WISE 2019新商业开创者100榜”
  2019年7月9日-10日,由36氪主办的“2019 WISE超级进化者大会”在北京主会场及上海分会场同步顺利召开。邀请了超过百位企业领袖、专家学者和知名投资人,分享新商业时代下...
日期:01-07
小红书“小众旅游”孤掌难鸣
来源:北京商报   为了搭建起电商交易闭环,小红书可谓不遗余力。在平台着力打造露营消费后,近日,部分露营商家向北京商报记者表示,较之旅游类成熟平台,小红书的引流能力仍不太明...
日期:08-17
健康科技赋能,助力药店形成“健、医、药、保”闭环
  2020年6月20日,健康科技集团妙健康继收购山东健康优选大药房连锁有限公司后,旗下妙药事业部打造的首家“智慧药房”样板店正式在山东济南开业。   据悉,智慧药房背后...
日期:07-14
“五个高”打造优势!华为发布全屋智能3.0_华为全屋智能家居方案包含什么
未来没有配套智能家居的房子,就是毛坯房”。早在1995年,比尔盖茨就曾在《未来之路》中下了论断:在不远的未来,没有智能家居系统的住宅会像不能上网的住宅一样不合潮流。如今27年...
日期:11-10
大闸蟹消费市场报告「大众点评:国庆期间大闸蟹到店餐饮订单量同比去年增超四成」
10月10日消息,自9月底阳澄湖大闸蟹开捕以来,大闸蟹的消费热度不断攀升。为了更便捷放心地吃到优质大闸蟹,越来越多消费者选择去线下餐厅。大众点评数据显示,“十一”长假期间,大...
日期:10-13
荣耀V40官宣!前所未感的新品实力如何?1月18日见分晓(荣耀v40提前曝光)
  谈起近期手机圈重磅消息,当属完成品牌独立后的荣耀即将发布首款新品——荣耀V40。随着关于这款新品的爆料不断增加,网友对荣耀V40的期待也是越来越高。如今荣耀终于官...
日期:10-03
抖音 去旅游了_响应就地过年,千万网友在抖音“云旅行”
  2021年春节,“就地过年”防疫号召让许多人取消了返乡和出行计划。为丰富网友们的假期生活,抖音联合文旅部以“云游合家欢,就地过大年”为主题,推出“抖出新年味”等春节专...
日期:07-16
5988元起!华为折叠屏新机Pocket S发布:6款新配色
今晚19:00,华为正式召开了Pocket S及全场景新品发布会。备受期待的新款折叠屏手机华为Pocket S正式亮相,128GB售价5988元、256GB售价6488元、512GB售价7488元,前两款将于11月10...
日期:11-03
虚拟主播登上阿坝州云端春晚 科大讯飞小晴、一峰联手主持再露面
  2月10日晚,由中共阿坝州委网信办主办,中国移动咪咕公司及科大讯飞股份有限公司协办的第一届阿坝州5G网络春晚成功举办。据悉,此次云端春晚以“熊猫家园 净土阿坝”为主题,...
日期:07-16
全国入冬进程图:冬季覆盖一半国土 本周末南方迎来垮塌式降温_多地气温将创入冬以来新低
你那里入冬了吗?特斯拉上海超级工厂年底正式投产从节气来看,立冬已经过去一周,全国入冬的脚步正在提速。据中国天气网分享的最新全国入冬进程图,冬季覆盖全国一半国土。中国天气...
日期:11-17
天猫双11波今晚8点开买_今天是不是双11
10 月 31 日消息,天猫双 11 第一波将于今晚 8 点开买。多个第三方机构对双 11 商品进行的价格测评结果显示:今年的天猫双 11 商品到手价普遍在5.5-6. 8 折之间。记者从天猫获...
日期:11-02
Facebook成为媒体第二大网络视频推荐来源_Facebook视频推广
  北京时间2月18日上午消息,美国网络视频平台Brightcove与美国网络视频分析和广告平台TubeMogul联合发布的报告显示,2010年第四季度,Facebook延续了上一季度的趋势,继续位列...
日期:07-26
360公司:西北工业大学遭受美国NSA网络攻击调查报告(之二)
  2022年6月22日,西北工业大学发布《公开声明》称,该校遭受境外网络攻击。陕西省西安市公安局碑林分局随即发布《警情通报》,证实在西北工业大学的信息网络中发现了多款源于...
日期:09-27
能源行业刮起“数智风” 数字化转型助推构建新型电力系统_数字化智能电网
本报记者;向炎涛;见习记者;贺王娟   “双碳”目标背景下,构建以新能源为主体的新型电力系统已经成为电力行业转型发展方向。多位接受《证券日报》记者采访的业内人士认为,随...
日期:08-20
宅家抗疫就是最好的驰援!喜马拉雅宣布春节期间会员内容全部免费!
  新型冠状病毒肺炎疫情牵动着全国人民、社会各界的心。阿里巴巴、腾讯、快手、网易、喜马拉雅等互联网公司运用自己技术优势和内容优势,与公众携手助力抗疫。   据悉,喜...
日期:11-02
Twitter首席执行官声称暂不考虑出售或上市_Twitter被收购
  北京时间1月8日消息,据国外媒体报道,热门微博网站Twitter的首席执行官迪克科斯特罗(Dick Costolo)今日在拉斯维加斯CES展会上表示,公司打算保持独立运营,暂时不会考虑出售或...
日期:07-25