AIOps实战 | 运维数智化转型的深入实践与探索
新一代全行运维一体化平台——“启明”,总体分为两个阶段建设,第一阶段:“建平台,夯实底座”,以一体化平台基础能力为核心建设内容,完成统一采控、数据治理、企业级CMDB、自动化等模块建设,并实现多云环境、信创环境适配,在场景侧优先建设统一监控、应急处置等重点应用。第二阶段:“搭场景,运营生态”,在第一阶段基础上,重点建设技术变更、灾备切换等场景,探索告警智能收敛、根因推荐等智能化应用。
本文节选自公众号“金融电子化”,作者交通银行数据中心总经理孙磊。
交行作为国内五大行之一,在智能运维AIOps上一直有着长期的探索。孙总的文章总体介绍了新一代的一体化数智运维管理平台“启明”的建设路径、建设规划和成果,对于关注智能运维的企业有很大的借鉴意义。 —— 大嘴吧Lucy
2023年交通银行数据中心正式推出新一代全行运维一体化平台——“启明”,总体分为两个阶段建设,第一阶段:“建平台,夯实底座”,以一体化平台基础能力为核心建设内容,完成统一采控、数据治理、企业级CMDB、自动化等模块建设,并实现多云环境、信创环境适配,在场景侧优先建设统一监控、应急处置等重点应用。第二阶段:“搭场景,运营生态”,在第一阶段基础上,重点建设技术变更、灾备切换等场景,探索告警智能收敛、根因推荐等智能化应用。
“启明”基于平台化、服务化设计理念,采用基础能力层、运维场景层、统一门户层三层架构设计(如图1),聚焦一体化能力打造,构建集“监、管、控、营、服”为一体的自动化、智能化运维支撑平台,避免运维工具竖井化建设的问题,其融合采控、治理、服务、开发为整体,为上层业务提供强大的场景化运维支撑能力,实现运维场景丰富升级。
1.运维数据治理:塑造运维数字化转型的基石。
运维数据治理包括沉淀数据资源、开发数据资产、构建数据服务等多个环节。这些环节旨在通过一系列治理过程,如数据清洗、数据标准化、数据模型构建等,将原始的运维数据资源转化为具有高度价值的可用数据资产。只有当这些数据资产真正应用到业务中时,它们才能转化为企业资本,从而产生明显的经济效益。数据的应用价值成为推动整个数据治理工作的最大驱动力。
具体到交通银行对运维数据治理的落地与实践,通过构建三层七域的运维大数据模型(如图2),与总分行、云上云下的各类监控工具进行对接,按照特定业务需求,基于全行运维数据规范和标准,厘清运维数据架构,提升运维数据质量,实现运维数据全技术栈统一、全数据类型统一、全生命周期管理能力。
图2 三层七域运维数据架构
2.智能场景建设:打通数智运营“最后一公里”。数据治理为智能运维提供了可靠的保障,在确保数据准确性、完整性和一致性的情况下,以敏态感知为基础、故障定位为手段、故障自愈为目标,规划并建设了一系列智能化运维场景。敏态感知方面融合专业视图、贯穿业务链路形成全感知监控;故障定位方面进行告警收敛压缩,减少业务人员压力,辅助资源图谱、根因定位探索形成高效溯源定位能力;故障自愈方面以一键应急为基础形成标准处置能力,从固化的场景中建设联动场景,自动治愈符合特征要求的故障。
(更为详细的全文,请前往公众号阅读:实战 | 运维数智化转型的深入实践与探索)
更多推荐
所有评论(0)