欧美视频AAAAA肉欲,国产伦久久久精品A88,亚洲老熟女aaaaaaVT

某資源池TECS上報(bào)BFD會(huì)話DOWN告警和網(wǎng)絡(luò)流量異常告警，持續(xù)時(shí)間1秒至6分鐘不等，如下圖所示。

同時(shí)，業(yè)務(wù)側(cè)反饋，該資源池ISBG業(yè)務(wù)網(wǎng)元產(chǎn)生指標(biāo)下降等異常情況，但已快速恢復(fù)。

物理節(jié)點(diǎn)上的虛擬機(jī)都通過(guò)業(yè)務(wù)面網(wǎng)卡和節(jié)點(diǎn)外部通信。當(dāng)流量異常時(shí)，業(yè)務(wù)網(wǎng)卡上會(huì)出現(xiàn)很多丟棄包。

系統(tǒng)周期性采樣網(wǎng)卡所有收發(fā)包總數(shù)和丟棄包總數(shù)，當(dāng)丟棄包占比數(shù)連續(xù)多次超過(guò)門(mén)限時(shí)，則上報(bào)告警；當(dāng)連續(xù)幾個(gè)采樣周期的丟棄包占比數(shù)低于門(mén)限，則恢復(fù)告警。

虛擬網(wǎng)絡(luò)上出現(xiàn)較重負(fù)荷，造成報(bào)文丟棄率超過(guò)給定閾值。短暫的指標(biāo)下降異常情況可能和資源相關(guān)，例如CPU、內(nèi)存、網(wǎng)絡(luò)資源不足，或者硬盤(pán)的IO讀寫(xiě)過(guò)低導(dǎo)致延遲。

問(wèn)題分析過(guò)程如下：

1.觀察到異常情況后，對(duì)告警內(nèi)容展開(kāi)分析。執(zhí)行dvs show-dpifstats命令，找到對(duì)應(yīng)端口，查看overrun和drop統(tǒng)計(jì)項(xiàng)是否在增加。

2.觀察到計(jì)算服務(wù)器NFV-D-XXX-SRV-15業(yè)務(wù)bond子接口均上報(bào)了網(wǎng)絡(luò)流量異常告警，分析可能是端口丟包。

3.登錄服務(wù)器查看DVS日志，端口丟包量在告警時(shí)刻出現(xiàn)上漲，如下圖所示。

4.登錄云平臺(tái)查看NFV-D-XXX-SRV-15承載業(yè)務(wù)，該主機(jī)承載虛機(jī)四臺(tái)，其中包含ISBG的XX-isbg-OMPIPI_2_L虛機(jī)。分析可能為DVS接收丟包影響到虛機(jī)業(yè)務(wù)。

5.分析SAR日志，確認(rèn)DVS的綁定核在故障期間出現(xiàn)被占用的情況，時(shí)間點(diǎn)與網(wǎng)卡丟包基本一致，認(rèn)定為DVS核占用導(dǎo)致的DVS物理網(wǎng)卡丟包，如下圖所示。

6.分析BMC黑盒子日志，該時(shí)間（+8）在日志中大量出現(xiàn)ECC內(nèi)存錯(cuò)誤，內(nèi)存定位DIMM11，如下圖所示。

7.ECC錯(cuò)包出現(xiàn)的時(shí)間點(diǎn)與DVS網(wǎng)卡丟包時(shí)間點(diǎn)（DVS轉(zhuǎn)發(fā)核被占用的時(shí)間點(diǎn)）基本重合，認(rèn)定內(nèi)存ECC錯(cuò)誤與DVS的丟包強(qiáng)相關(guān)。

8.根據(jù)日志顯示報(bào)錯(cuò)信息，ECC內(nèi)存錯(cuò)誤觸發(fā)的內(nèi)存槽位為DIMM11。

1.登錄管理頁(yè)面，選擇“云平臺(tái)管理-計(jì)算-實(shí)例”，選中該臺(tái)主機(jī)上虛擬機(jī)，完成主機(jī)上虛擬機(jī)的熱遷移，如下圖所示。

2.完成遷移后，選擇“云平臺(tái)管理-計(jì)算-主機(jī)”，選中這臺(tái)主機(jī)，設(shè)置維護(hù)模式，如下圖所示。

3.下電服務(wù)器完成內(nèi)存更換，完成后上電，取消“設(shè)置維護(hù)模式”。

4.遷移回虛擬機(jī)，測(cè)試正常。

5.內(nèi)存ECC錯(cuò)誤為此次異常故障根因。內(nèi)存ECC錯(cuò)誤影響DVS轉(zhuǎn)發(fā)分析：

l在內(nèi)存ECC錯(cuò)誤故障期間，現(xiàn)有的BIOS配置會(huì)為每一個(gè)內(nèi)存ECC錯(cuò)誤產(chǎn)生一個(gè)SMI中斷。

如果產(chǎn)生ECC風(fēng)暴，那么影響CPU處理性能。

SMI中斷在內(nèi)核感知為NMI，不受內(nèi)核控制，從硬件描述看內(nèi)核是無(wú)法屏蔽此類中斷的。內(nèi)存ECC默認(rèn)不告警。

SMI中斷導(dǎo)致CPU進(jìn)入SMM模式，該模式對(duì)于OS是透明的。

因此SMI中斷是硬件和固件（BIOS）共同處理的，其對(duì)于CPU處理流程的打斷，對(duì)OS而言是不可感知的，不會(huì)出現(xiàn)在OS的統(tǒng)計(jì)項(xiàng)里面。

只有當(dāng)BIOS處理SMI后，并以SCI中斷通知OS時(shí)，OS才能感知到SCI中斷。但是BIOS是否觸發(fā)SCI中斷也不是OS所能控制的。

總之，SMI中斷對(duì)于DVS處理核的影響是硬件和固件的行為。

審核編輯：劉清

聲明：本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴