随着银行业务形态的增多、体量的变大,系统规模快速扩大,每天产生的数据信息呈几何式增长,其中包括大量的客户数据、交易数据和运行数据等,它们具有非常大的潜在价值,也是大数据应用的基础来源。

这些信息数据量十分巨大,但却分散在各个中心服务器或者设备的不同位置,对运维数据的统一管理、监控、信息挖掘变得越来越困难,也使得运维工作量越来越大。

背景

根据中国银监会《商业银行信息科技风险管理指引》(银监发〔2009〕19号)中针对日志文件完整性、存留周期的相关要求,结合当下监管部门对银行数据治理相关监督的指引,为提高银行竞争力,高质量快速完成数字化转型,将数据价值向资产化过渡,某行拟建设统一的运维大数据处理平台。优先选择从日志场景切入,精细化分析能力,打造场景化应用,实现全面可观测性,保障业务平稳高效运行。

方案简述

运维大数据平台的构建基于分布式高可用架构,满足容量随着业务需要动态扩展的需求;优化数据采集手段,实现对IT环境的实时数据采集以及集中高效的存储、查询、分析及可视化展示;基于流批一体的数据处理技术,实现全局数据秒速查询。内置AI智能分析引擎,除了能够解决异常检测、异常定位及辅助故障定位等运维痛点问题外,通过数据建模和洞察还可以对系统进行综合健康及风险分析。

另外,平台对数据处理操作非常友好,用低代码的方式实现对复杂数据的处理,如交易数据的实时响应时间计算,需要从日志中提取请求及响应的时间,再根据交易特征进行计算和时间窗口聚合,类似这种复杂操作,只需要一条数据处理流就可轻松完成。

可观测场景的实现

03 Logging中的Tracing,洞见交易串联分析

由于历史的原因,在没有改造日志规范的银行业务系统中,是没有统一交易的流水号来标识每一笔交易的。其中有些交易非常复杂,会从前端到网关、渠道、核心以及周边系统调用流转,一旦出问题很难定位排查。

面对这样的情况,首先通过提取交易特征变量,对日志中的交易进行端到端的串联分析,全链接自动识别交易的整个流程,使原本碎片化的交易追踪变得有序。

其次,通过对日志交易的链路识别、分析,将交易的发起至结束进行关联。再通过图形化展示界面,对各个环节进行不同的告警设置,实现跨系统统一查询全链路日志。

将每笔业务各阶段的数据片段进行串联,建立业务链路分析模型,聚合关键业务指标报送数据(日均交易笔数、响应时间、成功率等),统计分析业务瓶颈,掌握业务运行规律,能够极大地提升业务运维效率。

本次案例是智能运维助力实现全面可观测性的一次成功落地实践,案例从两方面入手,一是事前做好各类型的数据链接、监控等,分层次,找关联;另一方面在观测到问题后能够快速评估问题影响,收敛问题并找到根因。

只有不断完善运维体系,丰富各类运维场景,才可以帮助我们屏蔽系统的复杂性,使系统整体的运行状态清晰可见,进而通过不断积累总结经验,持续优化反哺到智能运维体系建设中,让如万里长征般的智能运维建设之行稳步前进。

Logo

技术共进,成长同行——讯飞AI开发者社区

更多推荐