行业互联网|阳光保险:全链路监控平台
项目背景及目标
随着科技进步 , 众多新的技术、平台、系统逐渐投入使用 , 各系统向智能、微服务、高可用化转型 , 系统服务能力及运行效率显著提升 , 也为业务开展提供了坚实基础 , 但也带来了新的挑战:
1.面对越来越多的平台、子系统、服务器、数据库等设施 , 需在异常时具备快速定位、有效诊断能力 。
2.需对众多设施统一进行监控及大数据计算 , 在影响业务使用前智能预警 , 保证系统稳定运行 。
为更好的保证业务可以稳定及快速的开展 , 提高系统运营效率和质量 , 自研全链路监控平台:以应用系统为视角 , 对应用系统有关的设施、中间件、网络、数据库、运行环境等进行闭环、可视化的监控 , 通过大数据计算进行智能预警 , 提升系统运营数字化能力 。
创新点
本方案可实现多监控数据源的整合 。 业务系统稳定运营对业务开展至关重要 , 而业务系统运行又依赖基础设施、应用、中间件、网络、数据库等设施 , 任何设施出现异常都会直接影响业务系统 , 进而影响业务开展 。
目前常规监控工具能监控到数数据有限 , 比如只能单独监控基础设施、中间件、网络或者其他应用、数据、容器、大数据、日志等类型 , 无法通过统一平台实现全面监控 , 需要有一个监控平台一方面可以复用原有监控 , 一方面可接入原有监控不支持的监控链路 , 并且将原来各设施孤岛式的监控数据打通 , 形成监控数据集市 。
1.全链路监控平台可以帮助系统运维人员快速“问诊”并定位问题发生设施 , 进而快速解决异常 , 减少业务损失;通过大数据进行智能预警 , 避免异常发生 , 避免业务损失 。
2.具备监控输出能力,子公司可以快速对接并结合自己的业务特点 , 有效的提高运维能力 。
3.为后续数据湖的形成以及智能化学习提供坚实的数据基础
项目方案和技术实现
全链路监控 , 采用大数据技术 , 整合基础架构层、业务应用层和用户端运行数据 , 实现实时的系统运营全生命周期监控 , 提供多视角、多维度的可视化展示 , 既可为公司整体IT运营决策性提供数据支持 , 又为一线运营人员提供及时的问题定位工具 。 闭环、可视化管理 , 提升系统运营数字化能力 , 极大地提高系统运营效率和质量 。
【行业互联网|阳光保险:全链路监控平台】全链路监控分四个部分:
本文插图
1. 监控数据源:产生并记录监控数据 。 具备产生、记录监控数据能力的系统、工具、服务、设备统称为监控数据源 。 本方案主要包括前端监控数据 , 应用相关监控数据 , 基础设施相关监控数据 , 业务流程相关监控数据 。
2. 监控数据收集:从各处收集监控数据 。 数据收集模块根据数据源的特点 , 通过不同方式将监控的数据源进行收集汇总成统一的格式,发送到大数据平台进行处理计算 。
3. 监控数据计算:实时、批处理进行监控数据计算、分析、存储 。 通过使用阳光云提供的大数据计算能力 , 将汇总的监控数据进行实时或定时计算、分析、统计,最终将结果持久化到数据库中 , 供前端数据展示使用 。
4. 监控数据展示:对监控数据进行大屏展示 , 供运维人员实时监控系统健康状态 , 通过告警推送(包括多告警源接入、告警设置、告警通知等功能) , 及时提醒运维人员处理系统问题 。
项目过程管理
本项目分两个批次 , 对产品功能进行迭代开发 , 版本发布后 , 根据用户在实际使用过程中的痛点逐步迭代完善系统功能 。
1、需求分析和概要设计阶段
项目第一批次时间段为2019年4月至2019年5月 。 期间主要完成需求调研 , 系统业务功能的分析 , 产品原型设计 , 系统架构选型 , 系统周边接口的概要设计 。 提交系统需求规格说明书 。
项目第二批次时间段为2019年1月至2020年2月 。 期间主要对一期使用过程中的问题进行收集汇总 , 形成新的优化需求 , 同时完成新需求的分析以及页面原型的设计等 。
2、系统详细设计阶段
项目第一批次起始时间为2019年05月至2019年05月 , 项目第二批次起始时间为2020年03月至2020年03月 , 此阶段主要进行系统架构的设计 , 技术方案的选型以及系统实现方案的详细设计 , 包括各组件设计、接口规范、安全性、业务逻辑的设计等 。 提交了全链路系统详细设计说明书等文档 。
3、系统编码、测试和上线准备阶段
项目第一批次起始时间为2019年05月至2020年07月 , 项目第二批次起始时间为2020年04月至2020年06月 , 此阶段主要完成全链路系统各功能模块开发的编码、测试以及试点行上线准备工作 , 提交了全链路监控系统测试报告、上线方案、系统设置等文档 。
4、试点行上线阶段
本项目分两个批次次上线 。
第一批次:2019年7月 , 实现通过运维大屏实时监控业务系统的运营情况 , 主要包括应用和主机运行数据的收集和汇总 , 以及在科技馆的展示 。
第二批次:2020年6月 , 主要实现监控大屏功能指标完善 。 扩大监控数据及监控页面使用方式:提供监控数据查询及推送功能 , 提供监控页面嵌入功能 , 供各项目组个性化开发使用 。 完善告警相关功能 , 包括多告警源接入、告警设置、告警通知等功能 。
运营情况
目前系统已完成集团近7000余台服务器指标监控监控 , 300余个应用系统指标监控 , 实现累计51个监控指标的展示 。 用户覆盖阳光集团 , 阳光财险 , 阳光人寿以及阳光信保 , 截止发稿日期实现系统告警近1000余次 , 及时有效的避免避免异常发生 , 避免业务损失 。 对于出现异常的情况 , 系统提供详细的监控数据 , 助力运维人员快速定位并解决问题 。
项目成效
1、监控大屏一期
实现在科技馆呈现公司整体IT运营情况 , 主要展示磁盘、内存、CPU应用响应、系统评分Top5 。 如下图所示:
本文插图
图1-5 一期大屏
2、监控大屏二期
为项目组成员可以更加准确及时的了解系统的运行情况 , 提供了业务系统的整体概况和系统关键运行指标的实时数据 , 实时反映系统运行状态和异常情况 , 并增加告警管理及告警接口 , 提升公司IT整体运营能力 。 主要包含两个部分:
1)系统总览
本文插图
2)系统监控大屏
本文插图
经验总结
全链路监控平台可以帮助系统运维人员快速“问诊”并定位问题发生设施 , 进而快速解决异常 , 减少业务损失;通过大数据进行智能预警 , 避免异常发生 , 避免业务损失 。
1.聚合原有各类型数据对接方式和技术 , 形成了一套完整的多数据源统一汇总加工到输出实时展示的方案 , 为后续同类型项目提供了多类型、多数据源的大数据量实时计算及展示的解决方案及思路;
2.各设施监控数据统一采集、展示的初步使用已初见成效 , 为后续数据湖的形成以及智能化学习提供坚实的数据基础 。
3.监控数据具备标准化的输出能力 , 子公司可以快速对接并结合自己的业务特点 , 有效的提高运维能力 。
推荐阅读
- 柑橘|沃柑有农残果农从来不吃?广西柑橘类种植行业协会回应
- 曲向阳|曲向阳:非洲猪瘟弱毒株出现令防控难度加大,行业将进入3-5年持续盈利期
- 生活就该泡在阳光和美味里
- 餐饮行业大厨一般都有自己独门制作的二次加工酱油,这是怎么做的,做好后可以保存多久?
- 广东|“一米阳光”弥足珍贵,明天又要下雨了
- 成都|成都:白云阳光伴 早晚多春雨
- 人工智能|中国人工智能,赏花更要寻根
- 完美星球|阳光赐予地球的礼物,请查收!17:00【完美星球 2】
- 多云|天气|春雨为何总是入夜后发生?明天或可见阳光
- 气温|北京最新天气预报:白天阳光在线,气温明显回升,最高气温15℃
