【需求】
寫一個監(jiān)控腳本,監(jiān)控系統(tǒng)負載,如果系統(tǒng)負載超過10,需要記錄系統(tǒng)狀態(tài)信息。
提示:
1)系統(tǒng)負載命令使用uptime看,過去1分鐘的平均負載
2)系統(tǒng)狀態(tài)使用如下工具標記:top、 vmstat、 ss
3)要求每隔20s監(jiān)控一次
4)系統(tǒng)狀態(tài)信息需要保存到/opt/logs/下面,保留一個月,文件名建議帶有`date +%s`后綴或者前綴
【解析】
這是一個監(jiān)控腳本,對于監(jiān)控腳本,通常有兩種思路
一個是做一個死循環(huán),讓它一直跑著,每檢測一次,中間間隔一段時間,比如本題要求的20s
另外一種是一分鐘執(zhí)行一次,利用系統(tǒng)的任務計劃,每分鐘執(zhí)行
本案例要求每20s監(jiān)控一次,所以只能使用第一種,死循環(huán)
死循環(huán),使用while :; do ...; done
這里的 : 你可以理解成條件為真
再來看腳本要求,監(jiān)控系統(tǒng)負載,超過10就記錄系統(tǒng)狀態(tài)信息
問題的關鍵點在于,如何獲取到系統(tǒng)負載的值
系統(tǒng)負載,在Linux里面可以使用w或者uptime或者top命令都可以獲取到
這里的load average 后面的三個數(shù)字就是系統(tǒng)負載,它們分別表示過去1分鐘、5分鐘、15分鐘內(nèi)系統(tǒng)的平均負載
為了更加精準,我們需要選擇1分鐘的平均負載
那這個負載到底代表著什么含義呢?
就拿這個1分鐘負載來說,這個數(shù)字表示,過去1分鐘,平均有多少個進程在使用CPU資源
使用CPU資源的進程越多,那就意味著CPU越忙
那,這個數(shù)字為多少是合適呢?
這取決于你的系統(tǒng)里有多少顆CPU,這個數(shù)字不是物理CPU,指的是邏輯CPU個數(shù),那如何查看?
使用lscpu命令看
比如,你系統(tǒng)有8顆CPU,那么系統(tǒng)負載為8時,表示1顆CPU處理一個進程,這樣CPU沒有空閑也不忙,是最合適的
好了,說完系統(tǒng)負載,再回頭看腳本
如何拿到這個1分鐘的負載數(shù)值呢?
這就需要借助sed awk 以及 cut等各種處理字符串的工具了
uptime |awk -F 'average:' '{print $2}'
首先將三個數(shù)字打出來,然后想辦法截取第一個數(shù)字
此時,可以使用cut來截取
這時候出現(xiàn)的結果還不是最終的數(shù)字,還需要將最前面的空格去掉,而且我們不需要小數(shù)點以及后面的數(shù)字
使用sed將空格去掉
再使用cut將小數(shù)點前面的數(shù)字截取
其實,寫腳本就需要大家一步一步地去嘗試
拿到負載值之后,再去和10做比較
可以先將負載值賦值到變量里,然后用變量去做比較
if [ $load -gt 10 ]; then ...; fi
如果負載值高于10,就需要記錄系統(tǒng)狀態(tài)信息
題目也提示我們了,獲取系統(tǒng)負載的狀態(tài),有top vmstat 和 ss 三個命令
如果大家不會使用這幾個命令,那么腳本就無法寫出來了
所以,寫shell腳本的前提是,你必須要具備一定的認知
top -bn1 可以一次性展示top的結果,但是沒必要將所有都記錄下來,只需要前100行就足夠了,因為我們關注的是排在最前面的幾個進程
vmstat 命令可以記錄包括cpu、內(nèi)存、io等信息,用法是 vmstat n1 n2 , 其中n1和n2是兩個數(shù)字,前面的數(shù)字,表示幾秒鐘打印一次信息,后面的數(shù)字是打印幾次,建議是1秒1次,打印10次
所以最終用法啊是
vmstat 1 10
ss是用來查看網(wǎng)絡鏈接狀態(tài)的命令,這里需要使用
ss -an
有了記錄系統(tǒng)狀態(tài)信息的命令后,接下來就是要規(guī)劃,將這些信息記錄到哪個日志里
兩種思路,一個是一股腦全部記錄到一個文件里,每次記錄都是追加
另外一個思路是,針對top、vmstat、ss分別記錄日志
這里我選擇第二個,這樣方便查看,題目中要求給這個日志加一個date +%s的時間戳作為后綴前綴或者后綴,那么就用后綴吧,比如:
top.`date +%s`, vmstat.`date+%s`, ss.`date +%s`
刪除掉一個月以前的,使用find查看即可,還需要注意,/opt/logs/下面有可能有其它日志,所以我們只需要針對本腳本產(chǎn)生的日志進行搜索
find可以這樣做
find /opt/logs -name "top*" -o -name "vmstat*" -o -name "ss*"
說明一下,這里的-o表示或者的意思,如果不加-o,那么就是并且
find 還支持將一堆條件搞到一起,作為一個整體,需要使用(),例如
find /opt/logs ( -name "top*" -o -name "vmstat*" -o -name "ss*" ) -mtime +30
需要注意,小括號使用脫義符號脫義了,并且前后有空格
【參考答案】
腳本最終結果是這樣的:
#!/bin/bash [ -d /opt/logs ] || mkdir -p /opt/logs while : do load=`uptime |awk -F 'average:' '{print $2}'|cut -d',' -f1|sed 's/ //g' |cut -d. -f1` if [ $load -gt 10 ] then top -bn1 |head -n 100 > /opt/logs/top.`date +%s` vmstat 1 10 > /opt/logs/vmstat.`date +%s` ss -an > /opt/logs/ss.`date +%s` fi sleep 20 find /opt/logs ( -name "top*" -o -name "vmstat*" -o -name "ss*" ) -mtime +30 |xargs rm -f done
腳本運行時,丟入后臺去
著重提醒一下,有的同學將最后面這個load賦值或者find命令放到了while循環(huán)外面,
這是不對的,放到while循環(huán)前面它只會執(zhí)行一次,而放到while循環(huán)后面永遠也不會執(zhí)行
審核編輯:湯梓紅
-
Linux
+關注
關注
87文章
11420瀏覽量
212319 -
監(jiān)控系統(tǒng)
+關注
關注
21文章
4004瀏覽量
180457 -
腳本
+關注
關注
1文章
395瀏覽量
28299
原文標題:監(jiān)控系統(tǒng)負載記錄系統(tǒng)狀態(tài)
文章出處:【微信號:aming_linux,微信公眾號:阿銘linux】歡迎添加關注!文章轉載請注明出處。
發(fā)布評論請先 登錄
相關推薦
機房環(huán)境監(jiān)控系統(tǒng)
智能機房監(jiān)控系統(tǒng) 智能家居監(jiān)控系統(tǒng)
智能機房監(jiān)控系統(tǒng)
【Future】大型儀器設備運行狀態(tài)監(jiān)控系統(tǒng)
【W(wǎng)RTnode2R申請】車載記錄儀
安燈狀態(tài)監(jiān)控系統(tǒng)
【HarmonyOS HiSpark AI Camera】車載記錄儀
集中監(jiān)控系統(tǒng)的要求有哪些?
邏迅智慧冷鏈智能無線溫濕度傳感器高精度疫苗監(jiān)控車載記錄儀
機房監(jiān)控系統(tǒng)標準和常見故障記錄
消控監(jiān)控系統(tǒng) 服務器,動環(huán)監(jiān)控系統(tǒng)【斯必得智慧機房】精選資料分享
基于ARM的電子負載網(wǎng)絡監(jiān)控系統(tǒng)

評論