一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

從阿里云盤崩潰談起,云平臺(tái)穩(wěn)定性如何保證?

白犀牛通信 ? 來(lái)源:白犀牛通信 ? 2023-02-09 10:42 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

近日,阿里云盤爆發(fā)故障,停服了近5小時(shí),隨后官方發(fā)了道歉信,也明確了賠償方案,但故障原因至今未公布。坊間傳言是因?yàn)橛脩艏邢螺d某電視劇資源所致,具體情況不明。

阿里云盤和阿里云有沒有關(guān)系呢?雖然這是兩個(gè)獨(dú)立的品牌,但阿里云盤應(yīng)該算是阿里云主要的SaaS產(chǎn)品之一,其資源肯定也是承載在阿里云的平臺(tái)上的,所以這個(gè)故障算到阿里云頭上應(yīng)該不冤。

這是繼阿里云香港區(qū)故障后,又一次引發(fā)社會(huì)輿論關(guān)注的故障事件。當(dāng)然,發(fā)生故障并不可怕,IT系統(tǒng)發(fā)生故障太正常不過(guò)了,但一個(gè)機(jī)房出問題就全局宕機(jī)了?一個(gè)系統(tǒng)故障就導(dǎo)致服務(wù)中斷5個(gè)小時(shí)?說(shuō)好的可用區(qū)隔離,跨區(qū)高可用,自動(dòng)恢復(fù)自動(dòng)切換,這些寫進(jìn)SLA里的保障措施全部失效!這就有點(diǎn)不同尋常了。

從這個(gè)角度看,這兩次故障事件正在折射出阿里云一些內(nèi)部的問題,甚至直接暴露出包括阿里云在內(nèi)的云廠商巨頭在前些年野蠻生長(zhǎng)、快速擴(kuò)張過(guò)程中遺留下來(lái)的很多bug還有待修補(bǔ)。這些bug的構(gòu)成非常復(fù)雜,有技術(shù)的因素,也有機(jī)制流程的因素,還有人的責(zé)任意識(shí)的因素,如果這些bug不能在短時(shí)間內(nèi)得到有效解決,可以預(yù)料,這樣級(jí)別的故障可能還將發(fā)生,這對(duì)阿里云等巨頭們的品牌形象、客戶信任度都是嚴(yán)重的傷害。

更關(guān)鍵的是,當(dāng)前國(guó)內(nèi)云計(jì)算應(yīng)用已從互聯(lián)網(wǎng)拓展至政務(wù)、金融、工業(yè)、醫(yī)療、交通等傳統(tǒng)行業(yè),在這個(gè)過(guò)程中,云上系統(tǒng)的復(fù)雜度極大提升,給云廠商帶來(lái)的挑戰(zhàn)將會(huì)更大!

其一,云上系統(tǒng)深度應(yīng)用微服務(wù)等云原生技術(shù)架構(gòu),應(yīng)用之間存在錯(cuò)綜復(fù)雜的依賴關(guān)系,服務(wù)性能瓶頸難以分析,故障影響范圍難以評(píng)估,故障根因難以定位,給平臺(tái)的運(yùn)維保障工作帶來(lái)了諸多困難;

其二,云上系統(tǒng)的故障率會(huì)隨設(shè)備的增加而呈指數(shù)級(jí)增長(zhǎng),單一節(jié)點(diǎn)問題可能會(huì)被無(wú)限放大,日常運(yùn)行過(guò)程中不可避免的伴隨異常發(fā)生,如何解決這些偶發(fā)、突發(fā)的問題,仍是一個(gè)技術(shù)難題;

其三,云上系統(tǒng)節(jié)點(diǎn)分布范圍更廣、數(shù)量更多,高度依賴網(wǎng)絡(luò)質(zhì)量,給日常運(yùn)維過(guò)程中的日志采集、變更升級(jí)等都帶來(lái)了新的挑戰(zhàn)。

與此同時(shí),由于產(chǎn)業(yè)互聯(lián)網(wǎng)核心業(yè)務(wù)上云進(jìn)程加速,而核心業(yè)務(wù)系統(tǒng)作為支撐用戶服務(wù)的關(guān)鍵,往往具備業(yè)務(wù)連續(xù)性要求高、并發(fā)請(qǐng)求量大、業(yè)務(wù)激增隨機(jī)性強(qiáng)的特點(diǎn),一旦發(fā)生故障,其影響范圍更大,后果更嚴(yán)重。為什么阿里云香港區(qū)事件直接導(dǎo)致阿里云換帥,正是因?yàn)槭录绊懙姆秶鷺O廣,對(duì)阿里云的品牌形象造成了極大的損害。

那該怎么辦呢?

從阿里云近期接連的兩次故障來(lái)看,云服務(wù)商亟需加深對(duì)云上系統(tǒng)穩(wěn)定性的認(rèn)知,構(gòu)建安全生產(chǎn)和穩(wěn)定性保障雙體系,推動(dòng)云上系統(tǒng)的穩(wěn)定性持續(xù)提升。

第一、建設(shè)云上業(yè)務(wù)安全生產(chǎn)體系,完善流程管理機(jī)制

一是事前的主動(dòng)防御,通過(guò)完備的故障分析、風(fēng)險(xiǎn)檢測(cè)、全局管控等事前風(fēng)險(xiǎn)防護(hù)治理手段,變被動(dòng)為主動(dòng),盡量減少故障風(fēng)險(xiǎn)發(fā)生的概率;

二是事中的全局監(jiān)控,通過(guò)深度應(yīng)用大數(shù)據(jù)、人工智能等技術(shù),對(duì)信息系統(tǒng)進(jìn)行全局監(jiān)測(cè)和預(yù)警,實(shí)現(xiàn)實(shí)時(shí)風(fēng)險(xiǎn)態(tài)勢(shì)感知;

三是事后的應(yīng)急保障,將信息化手段與傳統(tǒng)方式相融合,多種應(yīng)急方式,最大程度降低業(yè)務(wù)系統(tǒng)故障導(dǎo)致的損失和影響,有效保障業(yè)務(wù)系統(tǒng)的穩(wěn)定性和連續(xù)性。

在這個(gè)過(guò)程中還有一個(gè)關(guān)鍵點(diǎn)在于人的責(zé)任意識(shí)的培養(yǎng),所有管理機(jī)制流程到最后還是需要人來(lái)執(zhí)行落地。在這方面,運(yùn)營(yíng)商云或許更有優(yōu)勢(shì),畢竟電信運(yùn)營(yíng)商刻在DNA里的就是對(duì)“保障通信生命線”的追求,電信級(jí)服務(wù)對(duì)他們來(lái)說(shuō)是一種信仰,也是一種職業(yè)習(xí)慣。

第二、構(gòu)筑全流程穩(wěn)定性保障體系,提升技術(shù)保障能力

事前做好規(guī)劃工作,設(shè)計(jì)高度韌性系統(tǒng)。在軟件設(shè)計(jì)階段,重點(diǎn)關(guān)注系統(tǒng)架構(gòu)和容量規(guī)劃的設(shè)計(jì),同時(shí)配合混沌工程實(shí)驗(yàn)持續(xù)保持、提升系統(tǒng)韌性。

事中全方位檢測(cè),提高系統(tǒng)故障逃逸能力。通過(guò)對(duì)鏈路中各環(huán)節(jié)運(yùn)行數(shù)據(jù)的整合及聯(lián)動(dòng),在故障發(fā)生時(shí)幫助運(yùn)維人員迅速定位故障原因,最大化利用系統(tǒng)的觀測(cè)數(shù)據(jù)輔助進(jìn)行根因分析,實(shí)現(xiàn)高效的故障修繕與恢復(fù)。此外,要確?!皯?yīng)用多活”成為保障業(yè)務(wù)連續(xù)性的關(guān)鍵抓手,而并非是一句宣傳口號(hào)。當(dāng)災(zāi)難(含基礎(chǔ)設(shè)施故障)發(fā)生時(shí),多活系統(tǒng)在分鐘級(jí)內(nèi)實(shí)現(xiàn)業(yè)務(wù)流量切換,有效保障業(yè)務(wù)系統(tǒng)持續(xù)穩(wěn)定運(yùn)行,提升系統(tǒng)故障逃逸能力。

事后構(gòu)建故障閉環(huán),降低故障復(fù)現(xiàn)率。完善故障管理機(jī)制,故障管理機(jī)制包括規(guī)范管理故障響應(yīng)流程、故障升級(jí)機(jī)制、故障復(fù)盤機(jī)制,規(guī)范技術(shù)人員在應(yīng)對(duì)突發(fā)故障時(shí)的操作流程,明確職責(zé)邊界,提升溝通效率,推動(dòng)故障解決,提升故障處理效率。

在以上這些方面,一些正在崛起的新興云廠商可能比老牌巨頭走得更快更前,比如,移動(dòng)云一直聚焦云服務(wù)穩(wěn)定性領(lǐng)域涉及的關(guān)鍵技術(shù),從混沌工程、全鏈路壓測(cè)建設(shè)、可觀測(cè)性平臺(tái)建設(shè)、應(yīng)用多活架構(gòu)等多方面提升移動(dòng)云穩(wěn)定性。同時(shí)加速運(yùn)維系統(tǒng)的“平臺(tái)化”、“數(shù)據(jù)化”、“智能化”建設(shè),持續(xù)加強(qiáng)移動(dòng)云穩(wěn)定性。在去年8月工信部召開的“云服務(wù)穩(wěn)定安全運(yùn)行應(yīng)急演練專項(xiàng)活動(dòng)”中,移動(dòng)云榮獲“十佳優(yōu)秀報(bào)告”榮譽(yù)稱號(hào)。

最后,張勇在就任阿里云總裁后又發(fā)了一封內(nèi)部信,里面有一段話——

“唯有日積月累的客戶信任,才可以讓我們真正在市場(chǎng)中保持領(lǐng)先優(yōu)勢(shì),才能讓我們擁有持久的核心競(jìng)爭(zhēng)力。任何故障的發(fā)生,對(duì)阿里是萬(wàn)分之一、百萬(wàn)分之一的概率,一旦發(fā)生在每個(gè)客戶身上就是百分之百。我們必須急客戶所急,想客戶所想,既主動(dòng)解決客戶看得到的問題,更要把客戶尚未感知到的風(fēng)險(xiǎn)防患于未然?!?/p>

望行業(yè)共勉吧。

審核編輯 :李倩

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 云計(jì)算
    +關(guān)注

    關(guān)注

    39

    文章

    7976

    瀏覽量

    139908
  • 智能化
    +關(guān)注

    關(guān)注

    15

    文章

    5124

    瀏覽量

    57200
  • 阿里云
    +關(guān)注

    關(guān)注

    3

    文章

    1009

    瀏覽量

    44095

原文標(biāo)題:從阿里云盤崩潰談起,云平臺(tái)穩(wěn)定性如何保證?

文章出處:【微信號(hào):baixiniu2018,微信公眾號(hào):白犀牛通信】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    阿里是什么?企業(yè)不可不知的云端架構(gòu)服務(wù)!

    穩(wěn)定性上皆有完善的解決方案,同時(shí)也提供加速器產(chǎn)品 CDN、DCDN。 內(nèi)容分發(fā)網(wǎng)絡(luò) CDN 阿里內(nèi)容分發(fā)網(wǎng)絡(luò)(Content Delivery Network,CDN)的加速服務(wù)操作易上手,用戶可以輕松通過(guò)“智能調(diào)度系統(tǒng)”就近
    的頭像 發(fā)表于 03-16 09:43 ?491次閱讀

    HarmonyOS官網(wǎng)上線“穩(wěn)定性”專欄 助力更穩(wěn)定流暢的鴻蒙原生應(yīng)用開發(fā)

    鴻蒙應(yīng)用穩(wěn)定性是影響用戶體驗(yàn)的重要因素之一,常見的穩(wěn)定性問題包括:崩潰、應(yīng)用Freeze、內(nèi)存泄漏、內(nèi)存越界等。這類問題的定界與定位往往需要豐富的經(jīng)驗(yàn)積累和技術(shù)沉淀,定位過(guò)程通常耗時(shí)耗力。 最近,在
    發(fā)表于 02-17 17:17

    A/D變換器采樣速率和穩(wěn)定性的關(guān)系,是什么影響了轉(zhuǎn)換器的穩(wěn)定性?

    我在測(cè)量A/D轉(zhuǎn)換器時(shí)出現(xiàn)這樣一個(gè)問題。采樣率的提高,其A/D轉(zhuǎn)換器的穩(wěn)定性隨之降低。我個(gè)人理解,采樣率的提高已經(jīng)在測(cè)量有效位數(shù)上將誤差算出來(lái)了,我只需要考慮在高采樣率時(shí),有效分辨率的位數(shù)
    發(fā)表于 02-11 08:24

    華為 Flexus X 實(shí)例性能實(shí)測(cè):速度與穩(wěn)定性的完美結(jié)合

    前言 在當(dāng)今快速發(fā)展的計(jì)算領(lǐng)域,華為 Flexus X 實(shí)例以其卓越的性能和穩(wěn)定性脫穎而出。通過(guò)全面的實(shí)測(cè),我們驗(yàn)證了其在處理能力、網(wǎng)絡(luò)延遲和安全性等方面的出色表現(xiàn)。本文將深入探討華為
    的頭像 發(fā)表于 01-17 09:21 ?856次閱讀
    華為<b class='flag-5'>云</b> Flexus X 實(shí)例性能實(shí)測(cè):速度與<b class='flag-5'>穩(wěn)定性</b>的完美結(jié)合

    旋轉(zhuǎn)測(cè)徑儀的底座如何保證穩(wěn)定性?

    關(guān)鍵字:旋轉(zhuǎn)測(cè)徑儀,底座材質(zhì),測(cè)徑儀底座結(jié)構(gòu),旋轉(zhuǎn)測(cè)徑儀穩(wěn)定性, 旋轉(zhuǎn)測(cè)徑儀的底座保證穩(wěn)定性是確保測(cè)量精度和儀器長(zhǎng)期穩(wěn)定運(yùn)行的關(guān)鍵。以下是一些常見的
    發(fā)表于 01-09 14:04

    電源濾波器的頻率響應(yīng)穩(wěn)定性如何保證?

    電源濾波器清除電源無(wú)用頻率,保障后端設(shè)備電能穩(wěn)定。頻率響應(yīng)穩(wěn)定性至關(guān)重要,受元件性能、拓?fù)浣Y(jié)構(gòu)、阻抗匹配、環(huán)境干擾影響。需選用高性能元件、優(yōu)化結(jié)構(gòu)等保證穩(wěn)定性,未來(lái)趨勢(shì)為高頻、寬頻帶、
    的頭像 發(fā)表于 12-19 15:01 ?586次閱讀
    電源濾波器的頻率響應(yīng)<b class='flag-5'>穩(wěn)定性</b>如何<b class='flag-5'>保證</b>?

    探究阿里代理商的奧秘

    在數(shù)字化時(shí)代,阿里服務(wù)器以其卓越的性能和可靠的穩(wěn)定性,成為了眾多企業(yè)首選的服務(wù)提供商。然而,你是否曾好奇,為何選擇阿里
    的頭像 發(fā)表于 12-12 14:24 ?365次閱讀

    庫(kù)存平臺(tái)穩(wěn)定性建設(shè)實(shí)踐

    作者:京東物流 尹昊喆 前言 本文總結(jié)庫(kù)存平臺(tái)穩(wěn)定性建設(shè)中遇到的問題以及解決方案。感謝【金鵬】、【孫靜】、【陳瑞】同學(xué)在本文撰寫中提供的內(nèi)容及幫助! 庫(kù)存平臺(tái)面臨的穩(wěn)定性挑戰(zhàn) 庫(kù)存
    的頭像 發(fā)表于 12-11 09:50 ?552次閱讀
    庫(kù)存<b class='flag-5'>平臺(tái)</b><b class='flag-5'>穩(wěn)定性</b>建設(shè)實(shí)踐

    esp8266連接阿里平臺(tái)時(shí)mqtt連接超時(shí)

    esp8266nodemcu在使用arduino.ide連接阿里平臺(tái)的時(shí)候,wifi配置正常但連接不上mqtt,顯示報(bào)錯(cuò)如下: Attempting MQTT connection...失敗, rc=-4 5秒! 這是我所
    發(fā)表于 10-26 21:39

    如何保證備自投裝置可靠性和穩(wěn)定性

    備用電源自動(dòng)投入裝置(簡(jiǎn)稱備自投)是一種保證配電系統(tǒng)可靠、連續(xù)供電的安全設(shè)備,因此它的可靠性和穩(wěn)定性直接決定了系統(tǒng)的供電質(zhì)量,那么該如何保證備自投裝置的可靠性和穩(wěn)定性呢?今天
    的頭像 發(fā)表于 10-17 17:44 ?631次閱讀
    如何<b class='flag-5'>保證</b>備自投裝置可靠性和<b class='flag-5'>穩(wěn)定性</b>

    海外大帶寬服務(wù)器穩(wěn)定性如何

    隨著互聯(lián)網(wǎng)技術(shù)的飛速發(fā)展,越來(lái)越多的企業(yè)和個(gè)人開始選擇海外大帶寬服務(wù)器來(lái)滿足其在線業(yè)務(wù)的需求。相比傳統(tǒng)的物理服務(wù)器托管模式,服務(wù)器提供了更高的靈活性、可擴(kuò)展性和安全性。然而,對(duì)于那些依賴穩(wěn)定網(wǎng)絡(luò)連接來(lái)進(jìn)行關(guān)鍵業(yè)務(wù)操作的用戶而
    的頭像 發(fā)表于 10-14 09:24 ?504次閱讀

    使用API Post測(cè)試阿里物聯(lián)網(wǎng)平臺(tái)動(dòng)態(tài)注冊(cè)

    使用API Post測(cè)試阿里物聯(lián)網(wǎng)平臺(tái)動(dòng)態(tài)注冊(cè)
    的頭像 發(fā)表于 10-05 19:08 ?843次閱讀
    使用API Post測(cè)試<b class='flag-5'>阿里</b><b class='flag-5'>云</b>物聯(lián)網(wǎng)<b class='flag-5'>平臺(tái)</b>動(dòng)態(tài)注冊(cè)

    海外大帶寬服務(wù)器是什么?穩(wěn)定性如何

    海外大帶寬服務(wù)器是一種提供高速網(wǎng)絡(luò)連接和強(qiáng)大計(jì)算能力的服務(wù)器,它因其高帶寬和快速響應(yīng)速度,在視頻直播、在線游戲、大數(shù)據(jù)分析等領(lǐng)域有廣泛應(yīng)用。關(guān)于其穩(wěn)定性,由于擁有高性能的硬件設(shè)施和專業(yè)的維護(hù)服務(wù),能夠提供穩(wěn)定可靠的運(yùn)行環(huán)境,這
    的頭像 發(fā)表于 08-20 11:12 ?720次閱讀

    高并發(fā)物聯(lián)網(wǎng)平臺(tái)是什么

    高并發(fā)物聯(lián)網(wǎng)平臺(tái)是一種能夠處理大量設(shè)備同時(shí)連接并進(jìn)行數(shù)據(jù)交換的計(jì)算平臺(tái)。這種平臺(tái)通常被設(shè)計(jì)用來(lái)應(yīng)對(duì)來(lái)自數(shù)以萬(wàn)計(jì)甚至數(shù)十億計(jì)的物聯(lián)網(wǎng)設(shè)備的
    的頭像 發(fā)表于 08-13 13:50 ?538次閱讀

    阿里設(shè)備的物模型數(shù)據(jù)里面始終沒有值是為什么?

    如上圖,不知道講清楚沒有。 IG502自定義TOPIC 上發(fā)到阿里沒問題。采用阿里物模型的格式來(lái)上發(fā)就不行。請(qǐng)大佬指教!
    發(fā)表于 07-24 07:49