背景与挑战
随着电网公司数字化转型工作的推进和云平台、大数据、物联网、移动化、智能化等新技术的应用,推进高效一体化网络排障定位与深入推进人工智能及大数据技术等在电网信息系统运维中的应用,以及运用前沿科技技术,提高生产管理效益,提升数字电网建设过程中数据的价值已成为电网公司数字化转型工作的必然要求。
与此同时,伴随着电力行业数字化转型的不断发展,相关企业业务系统的不断更新与设备数量的大幅增加,由此引发了电力行业以下痛点:
- 监控层面:缺乏非侵入式的业务数据监控手段;
- 工作流程层面:缺乏统一的IT服务入口和服务管理流程;
- 人员层面:业务体系复杂,不同业务部门各自为政;
- 故障处理层面:问题发生后被动处理,且故障分析定位困难。
基于以上背景及痛点,如何在不植入探针或 Agent 的情况下监控业务链路运行情况,业务管理人员如何统计分析关键业务指标数据,运维人员如何准确定位故障、排查故障对电力行业相关企业来说均是极大的挑战。
场景需求分析
基于上述背景及挑战分析,电力行业具体包含以下运维场景需求:
- 非侵入式监控:通过非侵入式手段或工具实现对业务拓扑和业务指标数据的监控;
- 运维数据分析:统一收集、处理、分析业务系统运维数据、日志数据和关键指标数据;
- 统一处理展示:对业务系统的物理链路、逻辑拓扑以及指标数据进行集中监控展示;
- 故障定位分析:统一告警信息收集、对故障进行关联分析,准确定位故障问题和根因,提升故障处理效率。
解决方案
整体产品技术架构
下图为整体产品技术架构,包含底层立体化监控与管理工具集、中层数字化运维数据中台、顶层数据价值与管理产品集。底层立体化监控与管理工具集包含基础设施监控(DOIM)、业务性能监控(DBPC)以及其他开源及非开源监控工具与日志分析(DOLA);中层数字化运维数据中台包含数字化运维指标管理体系(DOMM)、面向服务的配置管理(CMDB)、智能分析(DOIA)、数字化运维数据库 (DODB )以及采控平台(DOCC);顶层数据价值与管理产品集包含数字化运维监控中心(DOMC)、数字化运维事件管理(DOEM)数字化运维工作台、报告报表以及数字化运营服务管理。
产品列表及功能
业务性能监控工具
下图为业务性能监控工具监控网络流量镜像的具体流程。通过抓取网络镜像流量的方式对业务数据进行分析。业务发起后,业务流量经过多层链路一体化展示,直观明了地展示业务在哪个层级消耗的时间情况。
数字化运维数据库
数字化运维数据库能够实时高效的接入用户环境的多种数据源,收集用户环境中的IT和业务数据,进行统一的管理和存储,通过便捷和强大的建模分析工具,将数据进行关联分析、业务建模,结果实时输出给可视化以及其他应用。
- 数据处理:通过数据处理pipeline对流式数据进行实时处理,内置多种数据处理组件以及数据处理模版,开箱即用,全方面满足数据预处理的要求。
- 数据存储:高性能的分布式列式存储数据库,大大减少数据对磁盘空间的占用,在相同容量下,能够对更大范围的数据进行实时查询。
- 数据计算:丰富的聚合计算函数和强大的计算能力,充分利于 CPU 资源面。聚合查询的平均响应时间可在3秒以内,一些简单查询可以在毫秒级。
数字化运维算法平台
数字化运维算法平台包含指标异常检测、指标预测、日志模式识别、根因分析与推荐、多指标分析、告警降噪等6大 AIOps 场景的20余个智能算法。提供了丰富的算法库,开箱即用,能够支撑丰富的运维场景。
- 单指标异常检测:动态基线算法、自动阈值算法、分段阈值算法、频域分析算法、自动选择算法
- 多指标异常检测:多指标异常检测算法
- 日志解析:CWdrain算法、CWspell算法
- 指标预测:CWprophet算法、CWrnn算法
- 根因分析:基于调用链的RCA算法
- 智能告警降噪:日志统计异常检测算法
数字化运营指标体系管理平台
数字化运营指标体系管理平台作为上层应用侧产品监控中心重要的数据来源之一,帮助其通过整合业务与IT资源、指标、健康度、告警事件,围绕业务价值构建多维度的运维监控体系,以实现能够快速发现、分析并定位故障,达到全方位、立体化监控的能力。
静态阈值
- 手动设定数据区间梯度
- 根据数值坐落区间获取指标健康度
动态阈值
- 选定算法进行指标异常检测
- 历史数据训练获得算法模型
- 算法结果判定指标健康度
健康度设置
生死线指标严重异常时,可一票决定健康度。健康度得分是表征对象健康状态的绝佳指示器。
- 选择参与计算的指标元素
- 根据业务情况分配元素的权重
- 生成健康素计算公式
数字化运维监控中心
数字化运维监控中心是一款全方位、立体化的实时监控产品,面向企业业务价值与 IT 运维的顶层规划,对业务数据以及基础设施、中间件、服务、应用、调用链等 IT 资源进行统一监控,并通过构建业务关联关系,结合指标、日志、告警等,帮助快速发现、分析并定位故障。
数字化运维事件管理
数字化运维事件管理基于大数据技术和机器学习算法,统一接入与处理来自于各种监控系统的告警消息与数据指标,支持告警事件的过滤、通知、响应、处置、定级、跟踪以及多维分析,最终实现面向告警事件全生命周期的闭环管控。
整体方案流程
在数据采集侧,通过业务性能监控工具抓取旁路流量,获取业务系统监控数据,同时通过业务流程梳理,建立业务链路拓扑,实现基于业务实际链路的监控分析,监控数据通过kafka传递至运维数据库。
运维数据库接收到数据后,对数据进行处理(包括字段提取、拆分、合并、格式转换等)并基于场景需求将不同数据存储到不同的数据库,同时通过查询引擎为应用场景提供数据支撑。
最后,在监控中心对业务系统拓扑和数据指标进行统一展示,基于规则进行健康度分析和事件告警,通过智能运维算法和大数据分析,实现指标数据的趋势预测和对事件告警的根因分析。
某电网企业案例分享
需求分析
- 希望通过不植入代码的方式来监控业务层的指标数据,形成业务链路拓扑图,跟踪业务数据流向,并实时展示关键数据;
- 通过指标历史数据,动态提供指标预测基线、预测数值范围;
- 针对问题,能够进行根因分析,快速进行问题定位;
- 对接当前使用的告警系统,分析出数据结果后,通过当前正在使用的的告警系统去触发事件。
云智慧解决方案
- 通过DBPC工具通过旁路镜像流量的方式获取实时业务数据,以非侵入的方式实现了对业务的监控;
- 建立运维大数据平台,实现对接收的数据进行统一存储和处理,并提取关键指标数据;
- 利用智能算法,对历史数据进行学习,实现了对未来一段时间内的数据趋势预测;
- 通过告警事件管理,对接客户现有告警系统,实现了告警信息的压缩、清洗,并且与现有的工单系统实现关联。
FlyFish开源福利
云智慧已开源数据可视化编排平台 FlyFish 。通过配置数据模型为用户提供上百种可视化图形组件,零编码即可实现符合自己业务需求的炫酷可视化大屏。 同时,飞鱼也提供了灵活的拓展能力,支持组件开发、自定义函数与全局事件等配置, 面向复杂需求场景能够保证高效开发与交付。
点击下方地址链接,欢迎大家给 FlyFish 点赞送 Star。参与组件开发,更有万元现金等你来拿。
GitHub 地址: https://github.com/CloudWise-...
Gitee 地址:https://gitee.com/CloudWise/f...
微信扫描识别下方二维码,备注【飞鱼】加入AIOps社区飞鱼开发者交流群,与 FlyFish 项目 PMC 面对面交流~