一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

TECS資源池上報網(wǎng)絡流程異常告警的問題處理

中興文檔 ? 來源:中興文檔 ? 2023-06-07 09:41 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

某資源池TECS上報網(wǎng)絡流程異常告警,告警單次持續(xù)15秒-4分鐘之間。

涉及UDM/PCF網(wǎng)元OMU虛機和ISBG網(wǎng)元的OMP虛機,不間斷出現(xiàn)“網(wǎng)絡流量異?!备婢?。

問題分析如下:

1.告警發(fā)生在多個網(wǎng)元環(huán)境,涉及不通的主機以及主機集合,以及多個業(yè)務TOR,按照問題發(fā)生的規(guī)律性排除單臺的硬件故障。

2.在線TECS版本和硬件組合已在多個站點使用,未發(fā)生相關情況,排除軟件版本和硬件的兼容性問題。

3.結合具體現(xiàn)場情況,上層業(yè)務多為測試版本,需要重點定位在上層業(yè)務和TECS的配合。

4.按照問題發(fā)生的嚴重度,優(yōu)先選擇告警最頻繁的網(wǎng)元虛擬機做抓包定位分析,同時結合歷史數(shù)據(jù)做規(guī)律性排查。

本次網(wǎng)絡流量異常告警涉及網(wǎng)絡虛機多,但問題原因類似,以下涉及的TECS以排查一個網(wǎng)元虛機為例。

1.通過告警詳情,TECS檢查虛機對應端口性能統(tǒng)計,如下圖所示。

59ff2850-0485-11ee-90ce-dac502259ad0.png

2.從告警詳情中得知虛機NFV-R-xxx-56OMP_L的vhu599f535d-1f端口在接收的21859個包中,丟了380個包,丟包率為1.7%。隨即統(tǒng)計了該虛機端口指標,發(fā)現(xiàn)虛機端口流入有丟包,端口流出沒有丟包。

3.TECS網(wǎng)絡流量異常告警產(chǎn)生機制,如圖5所示。

5a1d3e3a-0485-11ee-90ce-dac502259ad0.png

a.虛擬機的每一個虛口,對應DVS虛交換都有兩個隊列緩存,用于DVS和該虛口收發(fā)包的處理。一個收隊列(VM--->DVS方向,默認隊列長度1024),一個發(fā)隊列(DVS--->VM方向,默認隊列長度1024)。該告警是對應DVS的發(fā)隊列,即DVS發(fā)送報文給虛擬機的方向(圖中紅線示例部分)。

b.DVS收到物理口進來的報文后,根據(jù)相應的轉發(fā)規(guī)則,將對應的報文向不同的虛擬機的虛口轉發(fā),發(fā)送的報文會進入發(fā)送隊列。

c.DVS根據(jù)隊列的標志位狀態(tài)決定是否產(chǎn)生中斷信號,通知虛擬機接收發(fā)送隊列的包(隊列標志位狀態(tài)由虛擬機內部收包進程維護:當虛擬機內正在處理收包時,置標志位狀態(tài)標記DVS為不需要發(fā)送中斷信號通知虛擬機處理收包;當虛擬機內沒有處理收包時,置標志位標記DVS為需要立即發(fā)送中斷信號通知虛擬機處理收包)。

d.當虛擬機沒能及時取走隊列的數(shù)據(jù),DVS發(fā)向虛擬機虛口的報文填滿隊列時,則會出現(xiàn)隊列消息積壓,超過了隊列的長度,后續(xù)多余的報文就會因為無法入隊列而被丟棄,丟棄的報文數(shù)統(tǒng)計在overrun中。

e.DVS每隔5秒檢測一次overrun的統(tǒng)計和本周期內收包總數(shù)的比值,如果連續(xù)3次檢測,overrun的報文占比達到告警門限(丟包超過千分之一),就會上報告警。

f.計算節(jié)點上可以使用統(tǒng)計命令dvs show-dpifstats,采集所有虛擬機虛口和物理網(wǎng)口的收發(fā)包歷史統(tǒng)計信息,命令需要通過多次采集后,根據(jù)采集的結果,觀察虛口是否存在tx_overrun的統(tǒng)計增加。如果存在虛口在采集的周期內增加現(xiàn)象,說明虛擬機處理DVS發(fā)送隊列的報文不及時(或者處理能力不足),無法及時消費隊列的報文導致報文overrun。 g.DVS處理能力如下,本次問題的核心不是DVS的處理能力,而是在于業(yè)務虛擬機的處理能力。

25G網(wǎng)卡帶寬分配比例為0.24(DVS最大處理能力為12Gbps)。

10G網(wǎng)卡帶寬分配比例為0.35(DVS最大處理能力為 7Gbps)。

4.由于網(wǎng)絡流量異常告警不止一個種類的虛機,統(tǒng)計了4個月非凌晨操作時間的“網(wǎng)絡流量異?!钡臍v史告警,結果如下圖所示。

5a27f582-0485-11ee-90ce-dac502259ad0.png

5.采集觀察每一類虛機指標發(fā)現(xiàn),丟包均為DVS 發(fā)送報文給虛擬機的方向。且同類型虛機都是入向到端口有丟包,可以判定是上層網(wǎng)元虛機原因,需要上層業(yè)務虛機側協(xié)助排查。

6.UDM/PCF網(wǎng)元OMU虛機:

a.現(xiàn)場停止OMU虛機的端到端信令跟蹤任務后,告警不再出現(xiàn)。

b.現(xiàn)網(wǎng)OMU創(chuàng)建大量端到端信令跟蹤任務,未及時進行清理,會出現(xiàn)該現(xiàn)象,原因為:現(xiàn)場OMU 有N個SC。

c.當前信令跟蹤任務同步機制為:每條信令跟蹤任務數(shù)據(jù)約4K記錄,需要全表同步,即每次信令跟蹤任務激活,都會把所有信令跟蹤任務數(shù)據(jù)全量同步至前臺。

d.此外,MP向SC同步數(shù)據(jù)時,要乘以SC個數(shù),即每次要同步N*4K*300的數(shù)據(jù)。大包需要進行分包,造成一次往前臺同步的數(shù)據(jù)量很大,造成虛機流量過大,出現(xiàn)告警。

e.TIPI是立刻重傳,只要接收方發(fā)現(xiàn)接收的消息不連續(xù),會給發(fā)送消息方請求重傳,請求方接收到重傳請求,會立刻重傳。

7.ISBG網(wǎng)元的OMP虛機:

針對資源池DVS進行抓包分析,發(fā)現(xiàn)存在瞬間大量包集中收發(fā)情況,5秒內瞬時沖高收發(fā)27000個包,之后立即恢復正常,如下圖所示。

5a36ba68-0485-11ee-90ce-dac502259ad0.png

a.收發(fā)包峰值時刻深入分析確定,峰值收發(fā)包均由網(wǎng)元性能統(tǒng)計采集數(shù)據(jù)產(chǎn)生。

b.以日志采集為例,該時刻約產(chǎn)生27000個包,其中“SCSCF 用戶數(shù)按模塊統(tǒng)計”性能統(tǒng)計任務瞬間產(chǎn)生12596個包;“內存庫占用按模塊統(tǒng)計”性能統(tǒng)計任務瞬間產(chǎn)生13617個包。

c.兩個性能統(tǒng)計任務瞬間合計產(chǎn)生26213個包(12596+13617=26213),說明資源池產(chǎn)生流量峰值與“SCSCF 用戶數(shù)按模塊統(tǒng)計”、“內存庫占用按模塊統(tǒng)計”兩個性能統(tǒng)計任務有關聯(lián)。

8.S-CSCF用戶數(shù)按模塊統(tǒng)計,如下圖所示。

5a54c684-0485-11ee-90ce-dac502259ad0.png

9.內存庫占用按模塊統(tǒng)計,如下圖所示。

5a67e48a-0485-11ee-90ce-dac502259ad0.png

10.查看“SCSCF 用戶數(shù)按模塊統(tǒng)計”、“內存庫占用按模塊統(tǒng)計”性能統(tǒng)計任務發(fā)現(xiàn):

a.兩性能統(tǒng)計任務勾選全量模塊對象,實際應用中只需勾選真實激活的SMP模塊即可(CDB、OMP以及未激活SMP模塊無需勾選),按真實應用只需勾選47個SMP測量對象。

b.其余勾選的測量對象(CDB、OMP以及未激活SMP模塊)為無效對象,導致處理性能統(tǒng)計上報的網(wǎng)卡上流量突增,流量突增時會影響底層資源池產(chǎn)生瞬時流量告警。

c.性能統(tǒng)計與外部信令交互區(qū)分通道執(zhí)行,此性能統(tǒng)計流量瞬時突增不會波及VoLTE業(yè)務流程,對業(yè)務無影響。

d.此性能統(tǒng)計流量突增產(chǎn)生少量丟包情況。由于性能統(tǒng)計數(shù)據(jù)上報有重傳機制保障,不會影響性能統(tǒng)計數(shù)據(jù)整粒度采集,所以對性能統(tǒng)計數(shù)據(jù)呈現(xiàn)無影響。此外,由于流量沖高是瞬時行為,因此對網(wǎng)元自身CPU影響不大。

11.“SCSCF 用戶數(shù)按模塊統(tǒng)計”、“內存庫占用按模塊統(tǒng)計”兩個統(tǒng)計任務勾選了大量的無效性能統(tǒng)計測量對象,導致性能統(tǒng)計數(shù)據(jù)采集異常,單個網(wǎng)卡流量短暫沖高,偶發(fā)性造成短時間少量丟包,導致底層資源池產(chǎn)生端口流量異常告警,但不會影響網(wǎng)元業(yè)務及性能統(tǒng)計。

1.通過如下方式暫時規(guī)避該問題:

a.UDM / PCF:現(xiàn)場測試階段,盡量控制信令跟蹤任務在30個以下,完成測試后刪除測試號碼的跟蹤任務。

b.ISBG:“SCSCF 用戶數(shù)按模塊統(tǒng)計”、“內存庫占用按模塊統(tǒng)計”兩個統(tǒng)計任務去除測量對象勾選。

2.網(wǎng)絡流量異常告警是監(jiān)控上層網(wǎng)元運行正常的重要告警之一,例如當上層網(wǎng)元虛機有下電或者重啟都會產(chǎn)生網(wǎng)絡流量異常告警,可通過告警信息判斷涉及網(wǎng)元、對應虛機及端口。

3.本次網(wǎng)絡流量異常告警主要是因為上層網(wǎng)元有抓包或信令跟蹤導致,告警本身無業(yè)務影響。






審核編輯:劉清

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • PCF
    PCF
    +關注

    關注

    0

    文章

    32

    瀏覽量

    21116
  • DVS
    DVS
    +關注

    關注

    0

    文章

    18

    瀏覽量

    9823
  • 虛擬機
    +關注

    關注

    1

    文章

    966

    瀏覽量

    29319
  • ToR
    ToR
    +關注

    關注

    0

    文章

    8

    瀏覽量

    10518
  • NFV
    NFV
    +關注

    關注

    3

    文章

    118

    瀏覽量

    34144

原文標題:TECS資源池上報網(wǎng)絡流程異常告警的問題處理

文章出處:【微信號:ztedoc,微信公眾號:中興文檔】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    C#上位機與運動控制卡網(wǎng)絡通訊的周期上報

    使用C#上位機編程實現(xiàn)運動控制卡網(wǎng)絡通訊的周期上報功能
    的頭像 發(fā)表于 06-26 13:59 ?124次閱讀
    C#上位機與運動控制卡<b class='flag-5'>網(wǎng)絡</b>通訊的周期<b class='flag-5'>上報</b>

    智能電纜通斷采集機,實時監(jiān)測精準告警

    產(chǎn)品作用 電纜通斷采集主機是一款高度智能化的監(jiān)控設備,主要用于實時監(jiān)測電纜的通斷狀態(tài),并在異常情況下及時觸發(fā)告警。該設備支持多種移動信號,確保數(shù)據(jù)傳輸?shù)姆€(wěn)定性和可靠性。適用于電力、通信、交通、安防等
    的頭像 發(fā)表于 06-21 09:54 ?198次閱讀
    智能電纜通斷采集機,實時監(jiān)測精準<b class='flag-5'>告警</b>

    TECS OpenStack資源池虛擬機網(wǎng)絡二層地址無法互通的問題處理

    某運營商TECS OpenStack使用主機overlay SDN方案組網(wǎng),運維人員在創(chuàng)建虛擬機測試虛擬機網(wǎng)絡狀態(tài)時發(fā)現(xiàn)問題:在其中一臺主機上創(chuàng)建兩臺同網(wǎng)段虛擬機,虛擬機之間二層地址無法Ping通,但是可以Ping通網(wǎng)關地址,如圖1所示。
    的頭像 發(fā)表于 06-12 09:28 ?268次閱讀
    <b class='flag-5'>TECS</b> OpenStack<b class='flag-5'>資源</b>池虛擬機<b class='flag-5'>網(wǎng)絡</b>二層地址無法互通的問題<b class='flag-5'>處理</b>

    異常零流量小區(qū)檢測功能介紹

    隨著5G部署規(guī)模不斷擴大,網(wǎng)管KPI的分析需求突增也日益顯著,存在用戶感知問題無法從告警和KPI數(shù)值中直接體現(xiàn)的情況;或者某些小區(qū)存在故障而網(wǎng)絡維護工程師無法及時監(jiān)控識別出來。異常零流量小區(qū),就是指
    的頭像 發(fā)表于 03-22 09:54 ?476次閱讀
    <b class='flag-5'>異常</b>零流量小區(qū)檢測功能介紹

    TECS OpenStack資源池主機磁盤分區(qū)使用率過高的問題處理

    某運營商TECS資源池上報“主機磁盤分區(qū)使用率過高”的告警,如下圖所示。
    的頭像 發(fā)表于 03-21 09:47 ?467次閱讀
    <b class='flag-5'>TECS</b> OpenStack<b class='flag-5'>資源</b>池主機磁盤分區(qū)使用率過高的問題<b class='flag-5'>處理</b>

    TECS OpenStack資源池虛機寫磁盤時延高告警的問題處理

    某運營商TECS資源池,在當前告警中顯示“虛機寫磁盤時延高告警”,如下圖所示。告警統(tǒng)計總體平均10分鐘左右自動恢復。
    的頭像 發(fā)表于 03-21 09:36 ?444次閱讀
    <b class='flag-5'>TECS</b> OpenStack<b class='flag-5'>資源</b>池虛機寫磁盤時延高<b class='flag-5'>告警</b>的問題<b class='flag-5'>處理</b>

    能源管理移動革命:異常告警秒級響應+能效報告自動生成

    新一代能源管理系統(tǒng)通過移動化革命和異常告警秒級響應機制,實現(xiàn)能源管理實時化、智能化新紀元。它通過物聯(lián)網(wǎng)設備采集數(shù)據(jù),邊緣計算節(jié)點進行分析,管理人員移動終端獲取預警信息。通過故障預測模型,系統(tǒng)提前預警,避免生產(chǎn)事故。
    的頭像 發(fā)表于 03-11 09:46 ?312次閱讀
    能源管理移動革命:<b class='flag-5'>異常</b><b class='flag-5'>告警</b>秒級響應+能效報告自動生成

    TECS OpenStack資源池時間同步失敗的故障分析

    某運營商TECS OpenStack資源池,在當前告警中顯示“時鐘同步失敗”,以10分鐘整數(shù)倍為間隔上報“時間同步失敗”告警,持續(xù)時間30秒
    的頭像 發(fā)表于 03-03 10:09 ?435次閱讀
    <b class='flag-5'>TECS</b> OpenStack<b class='flag-5'>資源</b>池時間同步失敗的故障分析

    TECS OpenStack資源池虛機殘留導致網(wǎng)元異常的問題處理

    某運營商TECS資源池的一臺主機內存故障,進行關機、內存更換操作,虛機自動遷移到其他主機上,同時做了其他虛擬機的手動遷移操作。后續(xù)在TECS上出現(xiàn)虛機內核異常
    的頭像 發(fā)表于 03-03 09:42 ?371次閱讀
    <b class='flag-5'>TECS</b> OpenStack<b class='flag-5'>資源</b>池虛機殘留導致網(wǎng)元<b class='flag-5'>異常</b>的問題<b class='flag-5'>處理</b>

    排查并處理共享站點S1用戶面路徑不可用告警

    增多,如圖1所示。 圖 1? 電信4G基站告警 1. 通過對基站告警進行分析后發(fā)現(xiàn),出現(xiàn)告警的S1用戶面路徑不可用告警,對端IP地址為10.100.33.X,如圖2所示。 圖2 對端I
    的頭像 發(fā)表于 01-23 11:08 ?869次閱讀
    排查并<b class='flag-5'>處理</b>共享站點S1用戶面路徑不可用<b class='flag-5'>告警</b>

    串口通訊異常處理方法 串口設備連接方式

    串口通信異常處理方法 1. 異常檢測 在串口通信中,首先需要能夠檢測到異常情況。異常檢測可以通過以下幾種方式實現(xiàn): 硬件檢測 :利用串口硬件
    的頭像 發(fā)表于 12-27 09:53 ?4030次閱讀

    異常重啟怎么破?多方排查后,原因竟然是。。。

    ?又是異常重啟。。。讓人摸不到頭腦。 這幾天,看到客戶上報了重啟問題,說是查不出原因。 重啟現(xiàn)象是 ——有極個別設備在工作中不定時反復異常重啟,大部分設備正常;反復重啟設備,有時候又能持續(xù)正常工作
    的頭像 發(fā)表于 10-14 07:04 ?890次閱讀
    <b class='flag-5'>異常</b>重啟怎么破?多方排查后,原因竟然是。。。

    Panasonic松下焊接電異常處理

    電子發(fā)燒友網(wǎng)站提供《Panasonic松下焊接電異常處理.pdf》資料免費下載
    發(fā)表于 08-19 14:24 ?0次下載

    自動化生產(chǎn)車間異常告警運維管理系統(tǒng)解決方案

    管理等系統(tǒng)提出了更高的要求。 面向自動化生產(chǎn)車間,物通博聯(lián)提供基于工業(yè)智能網(wǎng)關的異常告警運維管理系統(tǒng)解決方案。通過將工業(yè)智能網(wǎng)關部署在車間現(xiàn)場并接入控制系統(tǒng)PLC、DCS、SCADA等,進行數(shù)據(jù)采集與網(wǎng)絡傳輸工作,將設備數(shù)
    的頭像 發(fā)表于 07-27 10:36 ?695次閱讀
    自動化生產(chǎn)車間<b class='flag-5'>異常</b><b class='flag-5'>告警</b>運維管理系統(tǒng)解決方案

    IR615配置流量告警方法

    1.登錄路由器,服務流量管理中設置流量使用閥值. 2.添加告警設置,在服務&gt;告警設置中勾選告警輸入和告警輸出. 3.登錄DM平臺添加
    發(fā)表于 07-25 07:59