三、监控告警监控告警是上线后的风险治理必要机制,一旦出现告警,我们可以第一时间排查和解决,防止更多的客诉产生 。
1. RPC 层监控
? 超时监控
? 异常报错
? 可用率
2. CACHE 监控
? redis 连接异常
? r2m 可用率
? r2m 容量
? r2m 主从切换
3. MQ 监控
? MQ 接收重复
? MQ 发送失败
? MQ 内处理失败
4. Task 监控
? 定时任务未执行
? 定时任务超时
? 定时任务执行异常
5. 业务异常监控
? 获取锁异常
? AKS 和防刷未通过异常
? 任务领奖 / 接取等异常
? 人群没有权限
6. JVM 监控
? fullGc 日志与告警
? jvm 监控告警
7. 容器监控
? 实例存活
? CPU 负载 & 使用率
? 机器内存
8. DB 监控
? DB 层 CRUD 执行异常
? cleverBD 慢 SQL 定期巡查
? DB 查询操作时间超长
? 线上环境(应用、数据库、配置等)审批负责人是否为当前 leader
【【保护你的上线】风险治理的防范与排查之路】9. 利益点监控
? 营销发奖失败
? 库存不足
? 活动未开始 / 已结束
? 被风控
? 防重失败
? 单个用户领取利益数量超过配置的警戒线
? 活动整体发放量超过配置的警戒线
? 其他异常失败
10. 业务响应码监控
? 第三方接口正常码和异常码配置来监控可用率
11. 配置校验
? 获取配置异常
? 配置中该配应配字段未配置
? 配置中字段配置类型异常
? 没有符合当前时间的配置
? 活动已结束但仍然有大量用户访问
? 多个配置的时间点冲突
? 配置的奖励 Id / 任务 Id 等在第三方接口未查询到
? 每次运营修改配置,修改项通过告警发送到研发,对告警分等级
12. 活动资格校验
? 绕开某个校验告警
? 应是老用户领奖但新用户通过前置校验进入领奖流程
文章插图
作者:京东科技 胡骏
来源:京东云开发者社区 转载请注明来源
推荐阅读
- AIGC赋能,颠覆你的社交体验,与世界奇妙连接
- Oracle数据库初始化参数解析:优化系统配置的终极指南!
- 人工智能与软件开发的未来
- 领导排挤你的五种信号,趁早了解早做打算
- 丙纶布屋顶防水做法 屋顶防水做法
- DNF:你的职业在哪个层次?策划首次承认,职业存在“等级制度”
- 手机50度电能用多久 50度电能用多久
- 菠萝铁树的养殖方法和注意事项图片 菠萝铁树的养殖方法和注意事项
- 碧光环的养殖方法及注意事项 碧光环的养护
- 地栽兰草养殖方法和注意事项