某資源池TECS上報(bào)BFD會(huì)話DOWN告警和網(wǎng)絡(luò)流量異常告警,持續(xù)時(shí)間1秒至6分鐘不等,如下圖所示。
同時(shí),業(yè)務(wù)側(cè)反饋,該資源池ISBG業(yè)務(wù)網(wǎng)元產(chǎn)生指標(biāo)下降等異常情況,但已快速恢復(fù)。
物理節(jié)點(diǎn)上的虛擬機(jī)都通過(guò)業(yè)務(wù)面網(wǎng)卡和節(jié)點(diǎn)外部通信。當(dāng)流量異常時(shí),業(yè)務(wù)網(wǎng)卡上會(huì)出現(xiàn)很多丟棄包。
系統(tǒng)周期性采樣網(wǎng)卡所有收發(fā)包總數(shù)和丟棄包總數(shù),當(dāng)丟棄包占比數(shù)連續(xù)多次超過(guò)門(mén)限時(shí),則上報(bào)告警;當(dāng)連續(xù)幾個(gè)采樣周期的丟棄包占比數(shù)低于門(mén)限,則恢復(fù)告警。
虛擬網(wǎng)絡(luò)上出現(xiàn)較重負(fù)荷,造成報(bào)文丟棄率超過(guò)給定閾值。短暫的指標(biāo)下降異常情況可能和資源相關(guān),例如CPU、內(nèi)存、網(wǎng)絡(luò)資源不足,或者硬盤(pán)的IO讀寫(xiě)過(guò)低導(dǎo)致延遲。
問(wèn)題分析過(guò)程如下:
1.觀察到異常情況后,對(duì)告警內(nèi)容展開(kāi)分析。執(zhí)行dvs show-dpifstats命令,找到對(duì)應(yīng)端口,查看overrun和drop統(tǒng)計(jì)項(xiàng)是否在增加。
2.觀察到計(jì)算服務(wù)器NFV-D-XXX-SRV-15業(yè)務(wù)bond子接口均上報(bào)了網(wǎng)絡(luò)流量異常告警,分析可能是端口丟包。
3.登錄服務(wù)器查看DVS日志,端口丟包量在告警時(shí)刻出現(xiàn)上漲,如下圖所示。
4.登錄云平臺(tái)查看NFV-D-XXX-SRV-15承載業(yè)務(wù),該主機(jī)承載虛機(jī)四臺(tái),其中包含ISBG的XX-isbg-OMPIPI_2_L虛機(jī)。分析可能為DVS接收丟包影響到虛機(jī)業(yè)務(wù)。
5.分析SAR日志,確認(rèn)DVS的綁定核在故障期間出現(xiàn)被占用的情況,時(shí)間點(diǎn)與網(wǎng)卡丟包基本一致,認(rèn)定為DVS核占用導(dǎo)致的DVS物理網(wǎng)卡丟包,如下圖所示。
6.分析BMC黑盒子日志,該時(shí)間(+8)在日志中大量出現(xiàn)ECC內(nèi)存錯(cuò)誤,內(nèi)存定位DIMM11,如下圖所示。
7.ECC錯(cuò)包出現(xiàn)的時(shí)間點(diǎn)與DVS網(wǎng)卡丟包時(shí)間點(diǎn)(DVS轉(zhuǎn)發(fā)核被占用的時(shí)間點(diǎn))基本重合,認(rèn)定內(nèi)存ECC錯(cuò)誤與DVS的丟包強(qiáng)相關(guān)。
8.根據(jù)日志顯示報(bào)錯(cuò)信息,ECC內(nèi)存錯(cuò)誤觸發(fā)的內(nèi)存槽位為DIMM11。
1.登錄管理頁(yè)面,選擇“云平臺(tái)管理-計(jì)算-實(shí)例”,選中該臺(tái)主機(jī)上虛擬機(jī),完成主機(jī)上虛擬機(jī)的熱遷移,如下圖所示。
2.完成遷移后,選擇“云平臺(tái)管理-計(jì)算-主機(jī)”,選中這臺(tái)主機(jī),設(shè)置維護(hù)模式,如下圖所示。
3.下電服務(wù)器完成內(nèi)存更換,完成后上電,取消“設(shè)置維護(hù)模式”。
4.遷移回虛擬機(jī),測(cè)試正常。
5.內(nèi)存ECC錯(cuò)誤為此次異常故障根因。內(nèi)存ECC錯(cuò)誤影響DVS轉(zhuǎn)發(fā)分析:
l在內(nèi)存ECC錯(cuò)誤故障期間,現(xiàn)有的BIOS配置會(huì)為每一個(gè)內(nèi)存ECC錯(cuò)誤產(chǎn)生一個(gè)SMI中斷。
如果產(chǎn)生ECC風(fēng)暴,那么影響CPU處理性能。
SMI中斷在內(nèi)核感知為NMI,不受內(nèi)核控制,從硬件描述看內(nèi)核是無(wú)法屏蔽此類中斷的。內(nèi)存ECC默認(rèn)不告警。
SMI中斷導(dǎo)致CPU進(jìn)入SMM模式,該模式對(duì)于OS是透明的。
因此SMI中斷是硬件和固件(BIOS)共同處理的,其對(duì)于CPU處理流程的打斷,對(duì)OS而言是不可感知的,不會(huì)出現(xiàn)在OS的統(tǒng)計(jì)項(xiàng)里面。
只有當(dāng)BIOS處理SMI后,并以SCI中斷通知OS時(shí),OS才能感知到SCI中斷。但是BIOS是否觸發(fā)SCI中斷也不是OS所能控制的。
總之,SMI中斷對(duì)于DVS處理核的影響是硬件和固件的行為。
審核編輯:劉清
-
SAR
+關(guān)注
關(guān)注
3文章
426瀏覽量
46926 -
BIOS
+關(guān)注
關(guān)注
5文章
471瀏覽量
47031 -
ECC
+關(guān)注
關(guān)注
0文章
97瀏覽量
21087 -
虛擬機(jī)
+關(guān)注
關(guān)注
1文章
966瀏覽量
29346 -
SCI
+關(guān)注
關(guān)注
1文章
57瀏覽量
20514
原文標(biāo)題:TECS資源池上報(bào)BFD會(huì)話DOWN和網(wǎng)絡(luò)流量異常告警的問(wèn)題處理
文章出處:【微信號(hào):ztedoc,微信公眾號(hào):中興文檔】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
TECS OpenStack資源池虛擬機(jī)網(wǎng)絡(luò)二層地址無(wú)法互通的問(wèn)題處理

曙光網(wǎng)絡(luò)發(fā)布網(wǎng)絡(luò)流量回溯分析平臺(tái)SUNA
異常零流量小區(qū)檢測(cè)功能介紹

TECS OpenStack資源池主機(jī)磁盤(pán)分區(qū)使用率過(guò)高的問(wèn)題處理

TECS OpenStack資源池虛機(jī)寫(xiě)磁盤(pán)時(shí)延高告警的問(wèn)題處理

能源管理移動(dòng)革命:異常告警秒級(jí)響應(yīng)+能效報(bào)告自動(dòng)生成

高效流量復(fù)制匯聚,構(gòu)建自主可控的網(wǎng)絡(luò)安全環(huán)境

TECS OpenStack資源池時(shí)間同步失敗的故障分析

TECS OpenStack資源池虛機(jī)殘留導(dǎo)致網(wǎng)元異常的問(wèn)題處理

排查并處理共享站點(diǎn)S1用戶面路徑不可用告警

交換機(jī)MC-LAG場(chǎng)景下單臂BFD無(wú)法UP問(wèn)題

評(píng)論