孤独酒馆|一个能融会贯通PostgreSQL监控的人,大概率是高手( 四 )
误区3、监控的阈值要低 。 越早报警越好 。 如果你的系统中你负责的数据库只有几个,十几个还好说,实际上如果你有上百个数据库要负责,这样的做法,只能是狼来了,最终导致监控没人看 , 出了事情再后悔莫及 。
误区4、监控软件越新越好 。 监控本身就是获取监控端的数据为基础的, 新的监控软件是否在这方面有更改革新, 如果仅仅是展示方式或者其他附属功能上的提升,应考虑升级的花费以及相关精力的付出 。
监控原理1复制的服务是否持续的进行 2复制是否有延迟
一个问题: 如果逻辑复制停止了, 我们要不要当做一个紧急的任务来报警?如果我们不考虑业务,或者说如果复制停止了, 业务在一定时间是可以承受的,或不是很在乎这里就要介入到PG的数据库的原理, 如果逻辑复制停止了, 则会最终导致主库的wal无法被清除, 占满磁盘空间, 最终导致主库停库的问题, 说到这里如果此时有逻辑复制的PG ,我们并未监控逻辑复制是否中断后立即报警, 但这台机器的WALLOG 磁盘空间报警了, 可能第一就会想看逻辑复制是否还正常那么就会继续这个问题问, 如果是standby的库不稳定, 经常DOWN 掉, 那针对逻辑复制, 如果我设置了报警, 怎么办, 经常性的报警那就需要
1 增大WAL LOG 的空间, 设置相关的逻辑复制停止后的 多长时间进行报警 比如 5分钟以后报警还是 1分钟以后报警 这都要看 standby经常多长时间内恢复,并正常工作.
在知道监控什么, 并且知道一些如果logical replication 停止后会触发什么的情况下, 你可能会选择 ,当逻辑复制停止后,选择报警,并开始关注磁盘空间尤其是涉及 wal log 的那部分,但事情并没有到此为止, 如果你的客户告诉你, 经常获取的的数据和主库有不同的时候,怎么来解决,通过pg_stat_replication对你所在的通道中的sent_lsn write_lsn flush_lsn replay_lsn 这四个参数进行比对
通过对比这四个参数的的diff 就可以得出几种情况
1sent_lsn和write_lsn之间有延迟
2write_lsn和flush_lsn之间有延迟
3replya_lsn和flush_lsn有延迟
4sent_lsn和replay_lsn之间有没有延迟
Sent_lsn和write_lsn之间有延迟是不是网络方面有问题, 可以着重关注
Write_lsn和flush_lsn之间有延迟查看I/O 方面的压力大不大
Replay_lsn和flush之间有延迟,可以关注是否经常有批操作或大事务的存在
Sent_lsn和 replay之间没有延迟说明复制正常性能OK
总结一个相关的PG 数据库或者说是数据库监控方面的一个思维导图:
分别从监控的模式,监控的目的,监控的方式以及监控与性能之间的关系进行了一个初步的总结.
最后 , 介绍几种PG 监控的工具:?PG_ADMIN
?Solarwinds
?Pganalyze
?PGWATCH
?PMM2
?PGHERO
?PGCLUU
?PGBADGER
?PGTOP
以上内容有对应视频授课内容 , 请近期关注 , 我剪辑完就上传 。
以上内容由东方瑞通资深讲师 Austin原创 , Austin老师13年专业DBA经验 , 曾任互联网金融公司Senior DBA、500强制药企业Senior DBA , 精通Mysql、PostgreSQL、Mongo DB、SQLServer
推荐阅读
- 央视财经|这家知名连锁店掀“关店潮”!有人退钱等了一个月
- 武磊|下一个武磊?恒大新星留洋加盟西乙劲旅,18岁夺金靴,把梅西当偶像
- 钱江晚报·小时新闻|浙江街头揪心一幕!电瓶车上3岁男孩一个动作,他和妈妈瞬间飞出……
- 赵立坚|赵立坚:美国以莫须有借口抓捕中国企业高管 连一个弱女子都不放过
- 浙江法法制报|“大男人喝酒,叫一个女的去买单?”因为这句话,他逃了足足10年
- 美食工坊|而有一个很唯美的名字,日本仍保留使用,古代的苹果不叫“苹果”
- 国际今日事|称“感觉好像中彩票”,美国男子在自家后花园发现一个大型游泳池
- 水稻|从“80后”变“90后” ,今天袁隆平许下一个生日愿望
- 穿搭|4款时尚上衣,好看又百搭,让你时髦一个秋天
- 孙冾讲娱乐|女汉子本性暴露无遗!,搞笑GIF:最后这一个动作
