f Nagios 排除監控時段 ~ 迪貝之家

Nagios 排除監控時段

為什麼要排除監控? 我自身的案例有兩個
1.我定義的long query是running 10分鐘 &&  waiting > 1分鐘,系統絕大多數的request 都不會超過這個門檻值。但有些時段就是會有batch作業跑超過10分鐘,總不能為了一棵樹而放棄了整個森林,因此乾脆就排除那些batch的運作時段。
2.我定義的空間(file group 或交易記錄檔)監控門檻的使用率是>80% && available <10G。但最近有個例子,大表索引的重整作業因交易記錄檔空間不夠一直失敗(放進Nagios監控後,才凸顯了這個問題,已經給了70GB),幾經溝通與測試,最後改用重組(reorganize)取代重整(rebuild)。因為reorg小區段資料作業的特性,即使它運作失敗,也不會導致已整理完的部分完全被rollback,因此次趟的運作,可以接續上次的失敗點來進行。但即便如此,大表的重組也用了超過60GB的交易記錄檔空間,也就大於了我設定的門檻。既然是已知的現象,當然就可以排除監控了。
它(timeperiods)的設計理念是,不管是或非監控時段,都是你自行設定的物件,所謂的排除,就是在你所定義的監控時段內,剔除掉你所定義的非監控時段。
好繞舌喔~~ 我們先來看我所定義的排除時段。
Nagios timeperiods objects
我定義了一個名稱叫做exclude_1 的排除時段,它所定義的時間點是,晚上八點~九點。
我們接著看,怎麼在Nagios預設的 7*24的時段納入exclude_1,來達到我們設定的目的。
我們用exclude Directive 把先前定義的exclude_1納進7*24的設定內,你當然可以在Internet上找到其他的設定方法,來達成相同的目的。
這是Nagios 官方文件的參考Time Period Definition
########異動於今日2020/01/17###########
經過這兩個禮拜的實際implement
exlude timeperiode物件如果只有一個
看起來是正常
但是涵蓋了兩個,似乎schedule的換算會有問題
而且受影響的似乎不是只有套用該exclude物件
#2020/01/25 於Nagios 4 文件中確定是3的bug

Nagios Timeperiiod
因此我透過正面表列來取代exclude
結果運作就正常了
Nagios Timeperiod