监控系统的选型建议,这是一款灵活
文章图片
目前我所经历的几家公司 , 监控都是自研的 。 其实业界有很多优秀的开源产品可供选择 , 能满足绝大部分的监控需求 , 如果能从中选择一款满足企业当下的诉求 , 显然最省时省力 。
这篇文章 , 我将对监控体系的基础知识、原理和架构做一次性整理 , 同时还会对几款最常用的开源监控产品做下介绍 , 以便大家选型时参考 。 内容包括3部分:
必知必会的监控基础知识
主流监控介绍
监控的选型建议
必知必会的监控基础知识
1. 监控的7大作用
文章图片
实时采集监控数据: 包括硬件、操作、中间件、应用程序等各个维度的数据 。
实时反馈监控状态: 通过对采集的数据进行度统计和可视化展示 , 能实时体现监控对象的状态是正常还是异常 。
预知故障和告警: 能够提前预知故障风险 , 并及时发出告警信息 。
2. 使用监控的正确姿势
出任何线上事故 , 先不说其它地方有问题 , 监控部分一定是有问题的 。
听着很甩锅的一句话 , 仔细思考好像有一定道理 。 我们在事故复盘时 , 通常会思考这3个和监控有关的问题:有没有做监控?监控是否及时?监控信息是否有助于快速定位问题?
可见光有一套好的监控还不够 , 还必须知道 如何用好它」 。 一个成熟的研发团队通常会定一个监控规范 , 用来统一监控的使用方法 。
文章图片
了解监控对象的工作原理: 要做到对监控对象有基本的了解 , 清楚它的工作原理 。 比如想对JVM进行监控 , 你必须清楚JVM的堆内存结构和垃圾回收机制 。
确定监控对象的指标: 清楚使用哪些指标来刻画监控对象的状态?比如想对某个接口进行监控 , 可以采用请求量、耗时、超时量、异常量等指标来衡量 。
定义合理的报警阈值和等级: 达到什么阈值需要告警?对应的故障等级是多少?不需要处理的告警不是好告警 , 可见定义合理的阈值有多重要 , 否则只会降低运维效率或者让监控失去它的作用 。
建立完善的故障处理流程: 收到故障告警后 , 一定要有相应的处理流程和oncall机制 , 让故障及时被跟进处理 。
3. 监控的对象和指标都有哪些?
这里 , 我对常用的监控对象以及监控指标做了分类整理 , 供大家参考 。
文章图片
1硬件监控
包括:电源状态、CPU状态、机器温度、风扇状态、物理磁盘、raid状态、内存状态、网卡状态
2基础监控
CPU:单个CPU以及整体的使用情况
内存:已用内存、可用内存
磁盘:磁盘使用率、磁盘读写的吞吐量
网络:出口流量、入口流量、TCP连接状态
3数据库监控
包括:数据库连接数、QPS、TPS、并行处理的会话数、缓存命中率、主从延时、锁状态、慢查询
4中间件监控
Nginx:活跃连接数、等待连接数、丢弃连接数、请求量、耗时、5XX错误率
Tomcat:最大线程数、当前线程数、请求量、耗时、错误量、堆内存使用情况、GC次数和耗时
推荐阅读
- 中国新闻网|团结香港基金就通识科提出13项建议 含取消七个等级评分方式
- 消化疾病|秋燥来袭口燥咽干还便秘?秋燥的人都应知道的4种缓解方法,建议收藏
- |初秋第一双鞋,建议你买这双鞋,百搭又时髦
- 穿搭|30岁以上的微胖女人若想视觉显瘦,下面这4款裤子,建议别再碰
- 建议|远洋集团建议分拆远洋服务控股有限公司独立上市
- 控股|远洋集团建议分拆远洋服务控股有限公司独立上市
- |西装、奶奶针织衫显老气?深度解析“衣橱单品”,建议你一定要看
- 穿搭|女人30岁以后,如果不差钱,建议多穿这几款裙子,减龄又显气质
- 樊辰杰|黄金还会跌吗?,樊辰杰:9.7黄金早间最新走势分析建议
- 引爆|忧美国大选引爆波动性,机构建议投资者这样对冲风险
