行业互联网|阳光保险:全链路监控平台


项目背景及目标
随着科技进步 , 众多新的技术、平台、系统逐渐投入使用 , 各系统向智能、微服务、高可用化转型 , 系统服务能力及运行效率显著提升 , 也为业务开展提供了坚实基础 , 但也带来了新的挑战:
1.面对越来越多的平台、子系统、服务器、数据库等设施 , 需在异常时具备快速定位、有效诊断能力 。
2.需对众多设施统一进行监控及大数据计算 , 在影响业务使用前智能预警 , 保证系统稳定运行 。
为更好的保证业务可以稳定及快速的开展 , 提高系统运营效率和质量 , 自研全链路监控平台:以应用系统为视角 , 对应用系统有关的设施、中间件、网络、数据库、运行环境等进行闭环、可视化的监控 , 通过大数据计算进行智能预警 , 提升系统运营数字化能力 。
创新点
本方案可实现多监控数据源的整合 。 业务系统稳定运营对业务开展至关重要 , 而业务系统运行又依赖基础设施、应用、中间件、网络、数据库等设施 , 任何设施出现异常都会直接影响业务系统 , 进而影响业务开展 。
目前常规监控工具能监控到数数据有限 , 比如只能单独监控基础设施、中间件、网络或者其他应用、数据、容器、大数据、日志等类型 , 无法通过统一平台实现全面监控 , 需要有一个监控平台一方面可以复用原有监控 , 一方面可接入原有监控不支持的监控链路 , 并且将原来各设施孤岛式的监控数据打通 , 形成监控数据集市 。
1.全链路监控平台可以帮助系统运维人员快速“问诊”并定位问题发生设施 , 进而快速解决异常 , 减少业务损失;通过大数据进行智能预警 , 避免异常发生 , 避免业务损失 。
2.具备监控输出能力,子公司可以快速对接并结合自己的业务特点 , 有效的提高运维能力 。
3.为后续数据湖的形成以及智能化学习提供坚实的数据基础
项目方案和技术实现
全链路监控 , 采用大数据技术 , 整合基础架构层、业务应用层和用户端运行数据 , 实现实时的系统运营全生命周期监控 , 提供多视角、多维度的可视化展示 , 既可为公司整体IT运营决策性提供数据支持 , 又为一线运营人员提供及时的问题定位工具 。 闭环、可视化管理 , 提升系统运营数字化能力 , 极大地提高系统运营效率和质量 。
【行业互联网|阳光保险:全链路监控平台】全链路监控分四个部分:

行业互联网|阳光保险:全链路监控平台
本文插图

1. 监控数据源:产生并记录监控数据 。 具备产生、记录监控数据能力的系统、工具、服务、设备统称为监控数据源 。 本方案主要包括前端监控数据 , 应用相关监控数据 , 基础设施相关监控数据 , 业务流程相关监控数据 。
2. 监控数据收集:从各处收集监控数据 。 数据收集模块根据数据源的特点 , 通过不同方式将监控的数据源进行收集汇总成统一的格式,发送到大数据平台进行处理计算 。
3. 监控数据计算:实时、批处理进行监控数据计算、分析、存储 。 通过使用阳光云提供的大数据计算能力 , 将汇总的监控数据进行实时或定时计算、分析、统计,最终将结果持久化到数据库中 , 供前端数据展示使用 。
4. 监控数据展示:对监控数据进行大屏展示 , 供运维人员实时监控系统健康状态 , 通过告警推送(包括多告警源接入、告警设置、告警通知等功能) , 及时提醒运维人员处理系统问题 。
项目过程管理
本项目分两个批次 , 对产品功能进行迭代开发 , 版本发布后 , 根据用户在实际使用过程中的痛点逐步迭代完善系统功能 。
1、需求分析和概要设计阶段
项目第一批次时间段为2019年4月至2019年5月 。 期间主要完成需求调研 , 系统业务功能的分析 , 产品原型设计 , 系统架构选型 , 系统周边接口的概要设计 。 提交系统需求规格说明书 。
项目第二批次时间段为2019年1月至2020年2月 。 期间主要对一期使用过程中的问题进行收集汇总 , 形成新的优化需求 , 同时完成新需求的分析以及页面原型的设计等 。
2、系统详细设计阶段
项目第一批次起始时间为2019年05月至2019年05月 , 项目第二批次起始时间为2020年03月至2020年03月 , 此阶段主要进行系统架构的设计 , 技术方案的选型以及系统实现方案的详细设计 , 包括各组件设计、接口规范、安全性、业务逻辑的设计等 。 提交了全链路系统详细设计说明书等文档 。
3、系统编码、测试和上线准备阶段
项目第一批次起始时间为2019年05月至2020年07月 , 项目第二批次起始时间为2020年04月至2020年06月 , 此阶段主要完成全链路系统各功能模块开发的编码、测试以及试点行上线准备工作 , 提交了全链路监控系统测试报告、上线方案、系统设置等文档 。
4、试点行上线阶段
本项目分两个批次次上线 。
第一批次:2019年7月 , 实现通过运维大屏实时监控业务系统的运营情况 , 主要包括应用和主机运行数据的收集和汇总 , 以及在科技馆的展示 。
第二批次:2020年6月 , 主要实现监控大屏功能指标完善 。 扩大监控数据及监控页面使用方式:提供监控数据查询及推送功能 , 提供监控页面嵌入功能 , 供各项目组个性化开发使用 。 完善告警相关功能 , 包括多告警源接入、告警设置、告警通知等功能 。
运营情况
目前系统已完成集团近7000余台服务器指标监控监控 , 300余个应用系统指标监控 , 实现累计51个监控指标的展示 。 用户覆盖阳光集团 , 阳光财险 , 阳光人寿以及阳光信保 , 截止发稿日期实现系统告警近1000余次 , 及时有效的避免避免异常发生 , 避免业务损失 。 对于出现异常的情况 , 系统提供详细的监控数据 , 助力运维人员快速定位并解决问题 。
项目成效
1、监控大屏一期
实现在科技馆呈现公司整体IT运营情况 , 主要展示磁盘、内存、CPU应用响应、系统评分Top5 。 如下图所示:

行业互联网|阳光保险:全链路监控平台
本文插图

图1-5 一期大屏
2、监控大屏二期
为项目组成员可以更加准确及时的了解系统的运行情况 , 提供了业务系统的整体概况和系统关键运行指标的实时数据 , 实时反映系统运行状态和异常情况 , 并增加告警管理及告警接口 , 提升公司IT整体运营能力 。 主要包含两个部分:
1)系统总览

行业互联网|阳光保险:全链路监控平台
本文插图

2)系统监控大屏

行业互联网|阳光保险:全链路监控平台
本文插图

经验总结
全链路监控平台可以帮助系统运维人员快速“问诊”并定位问题发生设施 , 进而快速解决异常 , 减少业务损失;通过大数据进行智能预警 , 避免异常发生 , 避免业务损失 。
1.聚合原有各类型数据对接方式和技术 , 形成了一套完整的多数据源统一汇总加工到输出实时展示的方案 , 为后续同类型项目提供了多类型、多数据源的大数据量实时计算及展示的解决方案及思路;
2.各设施监控数据统一采集、展示的初步使用已初见成效 , 为后续数据湖的形成以及智能化学习提供坚实的数据基础 。
3.监控数据具备标准化的输出能力 , 子公司可以快速对接并结合自己的业务特点 , 有效的提高运维能力 。


    推荐阅读