闭环管理下的银行监控系统改造
本文插图
作者介绍
钱立镓 , 负责哈尔滨银行监控系统管理和建设 , 具有丰富的监控系统建设、运维及项目管理经验 。 参与哈尔滨银行统一监控平台、应用性能监控平台、自动化管理平台等多个运维管理平台架构设计及建设工作 。 对数据中心监控体系建设、自动化运维有深入研究和应用 。
前言
近几年来 , 随着哈尔滨银行数字化建设发展 , 银行系统引进了大数据及人工智能技术建设 , 同时银行监控管理需要整体优化管控策略和监测工具 。
立足国内监控政策环境和自身运营实际 , 我行现提出“监-管-控”闭环监控系统改造策略 , 从监控系统、一体化运营管理平台、自动化控制三个方面系统推进 , 以期为银行监控管理的发展提供可供借鉴的发展思路 。
大数据及人工智能技术在监控领域的应用使银行系统的监控面临更为重要的机遇和挑战 , 哈尔滨银行服务主体对业务可用性要求不断提高 , 需要不断优化现有监控平台及监控策略 , 需要形成监控标准化体系 。 因此 , 监控管理亟待更新监控管理办法 , 制定相适应的管控策略 。
一、哈尔滨银行监控管理系统升级改造的背景
我行监控系统面临的主要问题有:
- 银行监控系统整体来看 , 普遍存在不同监控平台监控策略、告警事件、数据归集分散的问题;
- 监控工具方面 , 监控控工具展示的更多的是面向专家和技术人员使用的监控视图 , 对ECC一线整体监控可视化需求的实现不足;
- 【闭环管理下的银行监控系统改造】业务监控方面 , 自动化巡检及处置流程覆盖面积小 , 覆盖场景单一 , 缺乏有效的自动化开发管理流程 。
二、“监-管-控”闭环监控系统方案内容
1、监:监控系统
监控系统重点改进主要涉及监控信息采集及事件处理流程、应用系统的改造、基础设施故障的告警事件、应用和业务场景故障的应急响应等几个方面 。 具体监控内容如下:
- 以ITM和ZABBIX为监控信息采集核心 , 通过syslog和snmp等标准协议 , 将存储、网络设备、安全防护等专有设备的监控事件统一归集管理 , 利用Omnibus形成标准的监控告警事件 , 与短信平台、ITIL平台进行数据集成 , 形成标准的事件处理流程 。
- 对应用系统进行改造 , 形成格式化的交易流水日志 , 并通过大数据分析平台对应用日志进行统一采集、归档、展示分析;添加应用心跳监测日志 , 确保在不同交易特征时段都可实时掌握应用可用性数据 , 保障监控信息可靠、有效 。
- 针对基础设施故障 , 开发报警事件架构分布图 , 根据系统架构层级关系、告警事件及应用映射快速定位 , 并与自动化工具集成 , 形成联动 , 如:存储IO故障 , 应用缓慢的根本原因定位 , 采取容灾切换规避等 。
- 针对应用或业务场景故障 , 制作基于业务日志的实时故障分析展现视图 , 如:ATM交易流水中 , 他代本报错 , 是全部他行报错 , 还是部分他行报错 , 处理的机制不同等 。
- 提供针对告警事件、业务日志的AIOps智能化分析功能 , 针对告警事件和日志异常进行告警提示 , 协助管理人员快速发现、定位故障 。
一体化运维管理平台主要涉及的三个方面内容有:
- 通过一体化运维管理平台实现针对监控对象及其构成组件的自动化登记 , 以及各组件的监控策略部署控制 , 并与监控工具集成 , 实现实时控制 。
推荐阅读
- 微软|新版任务管理器曝光Win11性能新机制:速度提升多达76%
- Windows操作系统|实用经典功能回归!Win11文件管理器迎来大改
- 微信|个人收款码调整对银行有何影响?腾讯、支付宝:非经营个人收款码正常使用
- 支付宝|3月1日起微信、支付宝个人收款码将受限 四大银行来抢市场了
- Windows操作系统|界面焕然一新!Win11全新任务管理器上手体验
- Windows|Windows 11全新任务管理器体验:全新布局 触摸党狂喜
- 微软|世界银行总裁批评微软700亿美元收购暴雪:全球很多人还很贫困
- Bug|Win11 Build 22538新Bug!点击任务管理器“性能”标签直接崩溃
- Windows操作系统|Win11 2022新版22538发布:微软留一手 焕然一新任务管理器来了
- 广场舞|嫌广场舞太吵男子买神器反制 法律人士:违反无线电管理条例
