3. 应用层
集成到数据库运维平台:作为隐患明细展示、配置巡检展示、管理白名单等功能的入口 。为了提高隐患治理效率 。我们做了以下设计 。
- 隐患明细展示页面会标注每个隐患出现的天数,便于追踪隐患出现原因 。
- 配置新的巡检展示时必须要同时制定隐患解决方案,确保隐患治理有章可循,避免错误的治理方式导致“错上加错” 。
- 运营报表,帮助管理者从全局角度掌握隐患治理进展,报表包括隐患趋势、存量分布、增量分布、平均治理周期等核心内容,进而由上到下推动隐患治理;报表数据同样是通过Crane定时任务计算获得 。
- 隐患治理催办功能,用来督促DBA处理隐患 。催办内容中会带有隐患具体内容、出现时长、处理方案等 。催办形式包括大象消息、告警,具体选用哪种形式可根据巡检关键程度做相应配置 。
- 对接先知平台,美团SRE团队开发的主要面向研发人员(下称RD)用户的风险发现和运营平台,平台接收各服务方上报的隐患数据,以RD视角从组织架构维度展示各服务的风险点,并跟进RD处理进度 。巡检系统会把需要RD参与治理的隐患,比如大表、无唯一键表等,借助先知平台统一推送给RD进行治理 。
- 运维周报,主要面向业务线RD负责人和业务线DBA,以静态报告形式展示业务线数据库运行情况以及存在的问题,巡检隐患是报告内容之一 。
巡检项目根据负责方分为DBA和RD,DBA主要负责处理数据库基础功能组件以及影响服务稳定性的隐患 。RD主要负责库表设计缺陷、数据库使用不规范等引起的业务故障或性能问题的隐患 。也存在需要他们同时参与治理的巡检项,比如“磁盘可用空间预测”等 。目前巡检项目共64个,类目分布情况如下图所示:

文章插图
图3 巡检项类目分布
- 集群:主要检查集群拓扑、核心参数等集群层面的隐患;
- 机器:主要检查服务器硬件层面的隐患;
- Schema/SQL:检查表结构设计、数据库使用、SQL质量等方面的隐患;
- 高可用/备份/中间件/报警:主要检查相关核心功能组件是否存在隐患 。

文章插图
五、成果
美团MySQL巡检系统已稳定运行近一年时间,基于新巡检体系上线的巡检项49个 。通过巡检体系持续运行,在团队的共同努力下,我们共治理了8000+核心隐患,近3个月隐患治理周期平均不超过4天,将隐患总数持续保持在极小的量级,有效地保障了数据库的稳定 。

文章插图
图4 隐患运营-团队内各虚拟小组隐患平均治理周期
下面的隐患趋势图,展示了近一年中隐患的个数,数量突然增长是由于新的巡检项上线 。从整体趋势上看,隐患存量有非常明显的下降 。

文章插图
图5 隐患运营-隐患总量趋势情况
除了推动内部隐患治理之外,我们还通过对接先知平台,积极推动RD治理隐患数量超过5000个 。

文章插图
图6 对接先知-推动RD治理隐患
为了提升用户体验,我们在提升准确率方面也做了重点的投入,让每一个巡检在上线前都会经过严格的测试和校验 。
对比其他先知接入方,DBA上报隐患在总量、转化率、反馈率几个指标上都处于较高水平,可见我们上报的隐患风险也得到了RD的认可 。

文章插图
图7 对接先知-各接入方上报隐患情况
指标说明:
- 反馈率 = 截止到当前时刻反馈过的风险事件数量/截止到当前时刻产生的风险事件总量 * 100%;
- 反馈准确率 = 截止到当前时刻反馈准确的风险事件数量/截止到当前时刻反馈过的风险事件总量 * 100%;
- 转化率 = 截止到当前时刻用户反馈准确且需要处理的风险事件数量 / 截止到当前时刻产生的风险事件总量 * 100% 。
推荐阅读
- 分享一段 Bash 脚本,用于MySQL备份压缩到Samba远程目录
- 黑客泄露了暗网网络托管提供商DH的数据库
- MySQL常用函数,程序员真得看看
- 带你去看美团架构
- 在 Linux 上检查 MySQL/MariaDB 数据库正常运行时间的三种方法
- mysql中定时任务的用法
- 服务器断电Oracle数据库修复数据过程
- PHP进阶教程-实现一个简单的MySQL连接池
- 云服务器配置 MySQL 远程连接的详细步骤
- Centos平台安装与卸载MySQL
