【保护你的上线】风险治理的防范与排查之路

三、监控告警监控告警是上线后的风险治理必要机制,一旦出现告警,我们可以第一时间排查和解决,防止更多的客诉产生 。
1. RPC 层监控
? 超时监控
? 异常报错
? 可用率
2. CACHE 监控
? redis 连接异常
? r2m 可用率
? r2m 容量
? r2m 主从切换
3. MQ 监控
? MQ 接收重复
? MQ 发送失败
? MQ 内处理失败
4. Task 监控
? 定时任务未执行
? 定时任务超时
? 定时任务执行异常
5. 业务异常监控
? 获取锁异常
? AKS 和防刷未通过异常
? 任务领奖 / 接取等异常
? 人群没有权限
6. JVM 监控
? fullGc 日志与告警
? jvm 监控告警
7. 容器监控
? 实例存活
? CPU 负载 & 使用率
? 机器内存
8. DB 监控
? DB 层 CRUD 执行异常
? cleverBD 慢 SQL 定期巡查
? DB 查询操作时间超长
? 线上环境(应用、数据库、配置等)审批负责人是否为当前 leader
【【保护你的上线】风险治理的防范与排查之路】9. 利益点监控
? 营销发奖失败
? 库存不足
? 活动未开始 / 已结束
? 被风控
? 防重失败
? 单个用户领取利益数量超过配置的警戒线
? 活动整体发放量超过配置的警戒线
? 其他异常失败
10. 业务响应码监控
? 第三方接口正常码和异常码配置来监控可用率
11. 配置校验
? 获取配置异常
? 配置中该配应配字段未配置
? 配置中字段配置类型异常
? 没有符合当前时间的配置
? 活动已结束但仍然有大量用户访问
? 多个配置的时间点冲突
? 配置的奖励 Id / 任务 Id 等在第三方接口未查询到
? 每次运营修改配置,修改项通过告警发送到研发,对告警分等级
12. 活动资格校验
? 绕开某个校验告警
? 应是老用户领奖但新用户通过前置校验进入领奖流程

【保护你的上线】风险治理的防范与排查之路

文章插图
 
作者:京东科技 胡骏
来源:京东云开发者社区 转载请注明来源




    推荐阅读