Array|监控系统选型,这篇不可不读
文章图片
文章图片
作者 | 骆俊武
之前 , 我写过几篇有关「线上问题排查」的文章 , 文中附带了一些监控图 , 有些读者对此很感兴趣 , 问我监控系统选型上有没有好的建议?
目前我所经历的几家公司 , 监控系统都是自研的 。其实业界有很多优秀的开源产品可供选择 , 能满足绝大部分的监控需求 , 如果能从中选择一款满足企业当下的诉求 , 显然最省时省力 。
这篇文章 , 我将对监控体系的基础知识、原理和架构做一次系统性整理 , 同时还会对几款最常用的开源监控产品做下介绍 , 以便大家选型时参考 。内容包括3部分:
必知必会的监控基础知识
主流监控系统介绍
监控系统的选型建议
必知必会的监控基础知识
监控系统俗称「第三只眼」 , 几乎是我们每天都会打交道的系统 , 下面 4 项基础知识我认为是必须要了解的 。
1. 监控系统的7大作用
正所谓「无监控 , 不运维」 , 监控系统的地位不言而喻 。不管你是监控系统的开发者还是使用者 , 首先肯定要清楚:监控系统的目标是什么?它能发挥什么作用?
文章图片
文章图片
实时采集监控数据:包括硬件、操作系统、中间件、应用程序等各个维度的数据 。
实时反馈监控状态:通过对采集的数据进行多维度统计和可视化展示 , 能实时体现监控对象的状态是正常还是异常 。
预知故障和告警:能够提前预知故障风险 , 并及时发出告警信息 。
辅助定位故障:提供故障发生时的各项指标数据 , 辅助故障分析和定位 。
辅助性能调优:为性能调优提供数据支持 , 比如慢SQL , 接口响应时间等 。
辅助容量规划:为服务器、中间件以及应用集群的容量规划提供数据支撑 。
辅助自动化运维:为自动扩容或者根据配置的SLA进行服务降级等智能运维提供数据支撑 。
2. 使用监控系统的正确姿势
出任何线上事故 , 先不说其它地方有问题 , 监控部分一定是有问题的 。
听着很甩锅的一句话 , 仔细思考好像有一定道理 。我们在事故复盘时 , 通常会思考这3个和监控有关的问题:有没有做监控?监控是否及时?监控信息是否有助于快速定位问题?
可见光有一套好的监控系统还不够 , 还必须知道 「如何用好它」 。一个成熟的研发团队通常会定一个监控规范 , 用来统一监控系统的使用方法 。
文章图片
文章图片
了解监控对象的工作原理:要做到对监控对象有基本的了解 , 清楚它的工作原理 。比如想对JVM进行监控 , 你必须清楚JVM的堆内存结构和垃圾回收机制 。
确定监控对象的指标:清楚使用哪些指标来刻画监控对象的状态?比如想对某个接口进行监控 , 可以采用请求量、耗时、超时量、异常量等指标来衡量 。
定义合理的报警阈值和等级:达到什么阈值需要告警?对应的故障等级是多少?不需要处理的告警不是好告警 , 可见定义合理的阈值有多重要 , 否则只会降低运维效率或者让监控系统失去它的作用 。
建立完善的故障处理流程:收到故障告警后 , 一定要有相应的处理流程和oncall机制 , 让故障及时被跟进处理 。
3. 监控的对象和指标都有哪些?
监控已然成为了整个产品生命周期非常重要的一环 , 运维关注硬件和基础监控 , 研发关注各类中间件和应用层的监控 , 产品关注核心业务指标的监控 。可见 , 监控的对象已经越来越立体化 。
推荐阅读
- 中年|什么是余压监控系统?余压监控系统如何接线和安装?一篇文章搞懂
- 监控系统|重庆首个高空抛物智能预警监控系统投用
- 安科瑞徐聃鸿|电力监控系统在中国船舶重工集团公司第四八一厂122项目10KV变电所的应用
- Array|臭氧层正在愈合,并对大气环流造成重大影响
- Array|瞄准“宅经济”!VR看房成年轻人租房新趋势
- Array|Spanlite公司使用3D打印一次高速烧结8,000个零件
- Array|面面俱到的绝佳体验 优质国产旗舰手机推荐
- Array|消息称爱奇艺或在港二次上市,回应称不予置评
- Array|中国移动首次招标边缘计算服务器 浪潮NE5260M5成功中标
- Array|远程课程“育见”VR 联想带来550个STEM教育模块