美团MySQL数据库巡检系统的设计与应用( 二 )


3. 应用层
集成到数据库运维平台:作为隐患明细展示、配置巡检展示、管理白名单等功能的入口 。为了提高隐患治理效率 。我们做了以下设计 。

  • 隐患明细展示页面会标注每个隐患出现的天数,便于追踪隐患出现原因 。
  • 配置新的巡检展示时必须要同时制定隐患解决方案,确保隐患治理有章可循,避免错误的治理方式导致“错上加错” 。
【美团MySQL数据库巡检系统的设计与应用】隐患运营后台:这个模块主要目的是推进隐患的治理 。
  • 运营报表,帮助管理者从全局角度掌握隐患治理进展,报表包括隐患趋势、存量分布、增量分布、平均治理周期等核心内容,进而由上到下推动隐患治理;报表数据同样是通过Crane定时任务计算获得 。
  • 隐患治理催办功能,用来督促DBA处理隐患 。催办内容中会带有隐患具体内容、出现时长、处理方案等 。催办形式包括大象消息、告警,具体选用哪种形式可根据巡检关键程度做相应配置 。
外部数据服务:主要是将巡检隐患数据提供给美团内部其他平台或项目使用,让巡检数据发挥更大的价值 。
  • 对接先知平台,美团SRE团队开发的主要面向研发人员(下称RD)用户的风险发现和运营平台,平台接收各服务方上报的隐患数据,以RD视角从组织架构维度展示各服务的风险点,并跟进RD处理进度 。巡检系统会把需要RD参与治理的隐患,比如大表、无唯一键表等,借助先知平台统一推送给RD进行治理 。
  • 运维周报,主要面向业务线RD负责人和业务线DBA,以静态报告形式展示业务线数据库运行情况以及存在的问题,巡检隐患是报告内容之一 。
四、巡检项目
巡检项目根据负责方分为DBA和RD,DBA主要负责处理数据库基础功能组件以及影响服务稳定性的隐患 。RD主要负责库表设计缺陷、数据库使用不规范等引起的业务故障或性能问题的隐患 。也存在需要他们同时参与治理的巡检项,比如“磁盘可用空间预测”等 。目前巡检项目共64个,类目分布情况如下图所示:
美团MySQL数据库巡检系统的设计与应用

文章插图
图3 巡检项类目分布
  • 集群:主要检查集群拓扑、核心参数等集群层面的隐患;
  • 机器:主要检查服务器硬件层面的隐患;
  • Schema/SQL:检查表结构设计、数据库使用、SQL质量等方面的隐患;
  • 高可用/备份/中间件/报警:主要检查相关核心功能组件是否存在隐患 。
下面,我们通过列举几个巡检任务来对巡检项做简单的说明:
美团MySQL数据库巡检系统的设计与应用

文章插图
 
五、成果
美团MySQL巡检系统已稳定运行近一年时间,基于新巡检体系上线的巡检项49个 。通过巡检体系持续运行,在团队的共同努力下,我们共治理了8000+核心隐患,近3个月隐患治理周期平均不超过4天,将隐患总数持续保持在极小的量级,有效地保障了数据库的稳定 。
美团MySQL数据库巡检系统的设计与应用

文章插图
图4 隐患运营-团队内各虚拟小组隐患平均治理周期
下面的隐患趋势图,展示了近一年中隐患的个数,数量突然增长是由于新的巡检项上线 。从整体趋势上看,隐患存量有非常明显的下降 。
美团MySQL数据库巡检系统的设计与应用

文章插图
图5 隐患运营-隐患总量趋势情况
除了推动内部隐患治理之外,我们还通过对接先知平台,积极推动RD治理隐患数量超过5000个 。
美团MySQL数据库巡检系统的设计与应用

文章插图
图6 对接先知-推动RD治理隐患
为了提升用户体验,我们在提升准确率方面也做了重点的投入,让每一个巡检在上线前都会经过严格的测试和校验 。
对比其他先知接入方,DBA上报隐患在总量、转化率、反馈率几个指标上都处于较高水平,可见我们上报的隐患风险也得到了RD的认可 。
美团MySQL数据库巡检系统的设计与应用

文章插图
图7 对接先知-各接入方上报隐患情况
指标说明: