摘要:?洛神是阿里云飛天系統(tǒng)的虛擬網(wǎng)絡(luò)系統(tǒng)核心,而在11月15日的GNTC 云專場(chǎng)峰會(huì)上,阿里云資深網(wǎng)絡(luò)技術(shù)專家宗志剛先生首先分享了“驅(qū)動(dòng)阿里云的高性能網(wǎng)絡(luò)引擎- 飛天洛神”主題演講,深度探尋了洛神系統(tǒng)關(guān)鍵技術(shù)能力及未來(lái)應(yīng)用方向。
大家都知道阿里云部件的系統(tǒng)都是以神仙命名的,比如說(shuō)洛神、伏羲、盤古、女媧等等。而在11月15日的GNTC 云專場(chǎng)峰會(huì)上,阿里云資深網(wǎng)絡(luò)技術(shù)專家宗志剛先生首先分享了“驅(qū)動(dòng)阿里云的高性能網(wǎng)絡(luò)引擎- 飛天洛神”主題演講。洛神是阿里云飛天系統(tǒng)的虛擬網(wǎng)絡(luò)系統(tǒng)核心,提供了阿里云豐富的網(wǎng)絡(luò)產(chǎn)品同時(shí)也是阿里云所有云產(chǎn)品的網(wǎng)絡(luò)基礎(chǔ)設(shè)施。洛神也支撐了阿里巴巴集團(tuán)和螞蟻金服集團(tuán)的業(yè)務(wù)。此分論壇深度探尋了洛神系統(tǒng)關(guān)鍵技術(shù)能力及未來(lái)應(yīng)用方向。
以下為大家?guī)?lái)宗志剛專家精彩的演講摘要:
起名洛神的來(lái)由是因?yàn)樵诠糯?,河流是人們非常重要的一個(gè)交通方式,就好比網(wǎng)絡(luò)一樣是人類生活工作通訊重要的組成方式,所以阿里云網(wǎng)絡(luò)在剛剛成立的時(shí)候,就起了洛神這個(gè)名稱。洛神現(xiàn)在管理阿里云的基礎(chǔ)網(wǎng)絡(luò)系統(tǒng)已經(jīng)非常的龐大,到目前為止已經(jīng)有19個(gè)Region,20T的總出口帶寬以及超過(guò)200條的BGP線路,而且不斷在增長(zhǎng)。另外阿里云推出了業(yè)界最豐富的網(wǎng)絡(luò)產(chǎn)品,從部署的位置來(lái)看可以分成四個(gè)組成部分:
云上網(wǎng)絡(luò)(洛神):如VPC、NAT網(wǎng)關(guān)、負(fù)載均衡這些網(wǎng)源,以及要大力發(fā)展的IPv6的網(wǎng)絡(luò)
云間網(wǎng)絡(luò)(織女):GEN云企業(yè)網(wǎng)、GA全球加速
上云網(wǎng)絡(luò)(嫦娥):高速通道、VPN網(wǎng)關(guān)還有智能接入網(wǎng)關(guān)
大圣智能機(jī)器人(齊天):通過(guò)阿里云運(yùn)營(yíng)的數(shù)據(jù)目前有的大數(shù)據(jù)分析,通過(guò)人機(jī)交互的方式給網(wǎng)絡(luò)的規(guī)劃者、運(yùn)營(yíng)者提供疑難雜癥的解答,幫助我們的網(wǎng)絡(luò)維護(hù)人員、規(guī)劃人員提高效率,現(xiàn)在正在試用,預(yù)計(jì)明年會(huì)推出。
阿里云的網(wǎng)絡(luò)架構(gòu)跟以上的網(wǎng)絡(luò)產(chǎn)品是一一對(duì)應(yīng)的,而洛神實(shí)際上是代表了云上網(wǎng)絡(luò)。從以下企業(yè)上云的路線以及企業(yè)的一個(gè)IT架構(gòu)的變化來(lái)看一看云對(duì)網(wǎng)絡(luò)的要求是哪一些。云進(jìn)化的路線圖分幾個(gè)階段:
第一階段,企業(yè)會(huì)將部分IT系統(tǒng)云化,主要是提升用戶體驗(yàn),提升運(yùn)維效率。
第二階段,企業(yè)會(huì)將基礎(chǔ)資源全面云化,主要用于優(yōu)化企業(yè)IT資源的利用率。
第三階段,企業(yè)會(huì)進(jìn)行架構(gòu)的微服務(wù)化改造,構(gòu)建以中臺(tái)為核心的業(yè)務(wù)架構(gòu),共享企業(yè)之間的各業(yè)務(wù)模塊,快速構(gòu)建自己的業(yè)務(wù)系統(tǒng),主要用于提高IT的敏捷能力
到了最后一個(gè)階段,阿里云認(rèn)為隨著企業(yè)的業(yè)務(wù)在云上逐漸運(yùn)行,收集了大量的一個(gè)數(shù)據(jù),后面會(huì)通過(guò)智能學(xué)習(xí)、大數(shù)據(jù)分析相關(guān)的工具對(duì)數(shù)據(jù)進(jìn)行智能化的一個(gè)分析,用于指導(dǎo)業(yè)務(wù)更精準(zhǔn)的服務(wù),更精準(zhǔn)的開展。
對(duì)應(yīng)阿里云的系統(tǒng)架構(gòu)轉(zhuǎn)變,最開始的時(shí)候業(yè)務(wù)都是應(yīng)用和數(shù)據(jù)一體化的單機(jī)部署方式,到后面應(yīng)用和數(shù)據(jù)分層、多級(jí)分層部署,再到分布式的集群,以及到現(xiàn)在越來(lái)越應(yīng)用廣泛的微服務(wù)化的改造,在這個(gè)過(guò)程中可以看到應(yīng)用和應(yīng)用之間,應(yīng)用和數(shù)據(jù)之間彈性越來(lái)越高。
進(jìn)入云以后,企業(yè)的業(yè)務(wù)在云上是可以看到網(wǎng)絡(luò)的,所以最基本的要求是網(wǎng)絡(luò)首先要提供各種網(wǎng)關(guān)類的服務(wù),其次還需要提供跟業(yè)務(wù)相匹配的彈性能力、安全、可靠性以及高效的運(yùn)維。
另外是阿里云認(rèn)為未來(lái)企業(yè)在云上的時(shí)候其實(shí)對(duì)基礎(chǔ)設(shè)施將不再可見(jiàn),將看不到所謂的計(jì)算、存儲(chǔ)、網(wǎng)絡(luò)等等各種服務(wù),只需要在云上的生態(tài)系統(tǒng)里面按需獲取自己所獲取的前臺(tái)、中臺(tái)稍微進(jìn)行改造生成自己的生態(tài)系統(tǒng)。在這個(gè)階段阿里云認(rèn)為最終的用戶將對(duì)網(wǎng)絡(luò)不可見(jiàn),這正是洛神系統(tǒng)最終的使命。
阿里云網(wǎng)絡(luò)產(chǎn)品推進(jìn)的時(shí)間點(diǎn)跟企業(yè)上云的系統(tǒng)基本上保持一致的。最開始只是提供AVS、SLB這些單實(shí)例,到后面因?yàn)榛A(chǔ)實(shí)例上云了之后需要云上和云下的高速通道,專線以及智能接入網(wǎng)關(guān),到后面資源的力度越來(lái)越細(xì),分布的范圍越來(lái)越廣,阿里云提供了比如說(shuō)全球加速、云企業(yè)網(wǎng),通過(guò)企業(yè)架構(gòu)在云上不停的演進(jìn),阿里云網(wǎng)絡(luò)還將繼續(xù)推進(jìn)各種滿足客戶服務(wù),各種業(yè)務(wù)系統(tǒng)的網(wǎng)絡(luò)產(chǎn)品。
接下來(lái)介紹阿里云網(wǎng)絡(luò)洛神系統(tǒng)的關(guān)鍵技術(shù)。三個(gè)關(guān)鍵詞:彈性、可靠和智能。
彈性:有兩個(gè)重要數(shù)字,第一個(gè)是秒級(jí)的轉(zhuǎn)發(fā)性能的彈性擴(kuò)展。洛神可以支持轉(zhuǎn)發(fā)帶寬從1兆到1個(gè)T在1秒以內(nèi)可以彈性擴(kuò)張。另外一個(gè)是容量的彈性能力,目前10萬(wàn)太的單網(wǎng)絡(luò)內(nèi)ECS規(guī)模。
而阿里云有這樣的彈性擴(kuò)展能力,主要有兩個(gè)原因:
數(shù)據(jù)面:目前洛神系統(tǒng)包括X86、FPGA、ASIC,在轉(zhuǎn)發(fā)面可以支持多種方式,但不同的轉(zhuǎn)發(fā)技術(shù)及不同的轉(zhuǎn)發(fā)產(chǎn)品如何應(yīng)用在不同的場(chǎng)景里面?到目前為止大部分的網(wǎng)關(guān)網(wǎng)源類產(chǎn)品主要還是用X86軟轉(zhuǎn)發(fā),但是后面會(huì)逐漸到智能網(wǎng)卡上面去。另外對(duì)于一些大帶寬,同時(shí)帶寬訴求不確定的應(yīng)用場(chǎng)景,例如阿里云一些VRP客戶訪問(wèn)存儲(chǔ)這一塊帶寬要求非常的高,而且也不確定。這樣的話阿里云會(huì)專門部署ASIC的芯片提升客戶的能力。通過(guò)這么多的轉(zhuǎn)發(fā)技術(shù)洛神形成了龐大的轉(zhuǎn)發(fā)的資源池,用于快速提升轉(zhuǎn)發(fā)性能的訴求。
管控面:洛神管理著一個(gè)非常龐大的網(wǎng)絡(luò)系統(tǒng),所以使用傳統(tǒng)的集中式單點(diǎn)的控制面肯定沒(méi)辦法滿足要求,所以整個(gè)洛神系統(tǒng)一方面控制面是區(qū)別層次化的,另外一方面很重要的是在下發(fā)轉(zhuǎn)發(fā)表面的時(shí)候采用的是緩沖的機(jī)制,例如虛擬機(jī)之內(nèi)的表象生成,通過(guò)數(shù)據(jù)面通過(guò)緩存自發(fā)學(xué)習(xí)到表象,通過(guò)數(shù)據(jù)面學(xué)習(xí)到的表象而不是通過(guò)控制面一一下發(fā)的,這樣表現(xiàn)的深層效率、深層速度將遠(yuǎn)遠(yuǎn)超過(guò)集中式的這樣方式。通過(guò)這種方式可以快速的去讓計(jì)算節(jié)點(diǎn)上線或者是下線。
可靠性:去年阿里云所有的網(wǎng)絡(luò)實(shí)例故障是50毫秒,還不計(jì)算 vSwitch的網(wǎng)絡(luò)情況下得到的結(jié)果,這是一個(gè)很短的時(shí)間。
談到可靠,跨機(jī)房多活是最基本的要求,對(duì)于洛神來(lái)講它的關(guān)鍵節(jié)點(diǎn)包?
括控制器,包括各種網(wǎng)關(guān),一方面是集群化部署,另外一方面在每一個(gè)機(jī)房基本上都會(huì)部署,節(jié)點(diǎn)與節(jié)點(diǎn)之間,機(jī)房與機(jī)房之間會(huì)互相備份,當(dāng)某一個(gè)故障洛神會(huì)在集群內(nèi)倒換,如果超過(guò)了一定的值會(huì)在機(jī)房倒換,避免因?yàn)閱我坏囊粋€(gè)點(diǎn)或者一個(gè)集群故障造成整個(gè)網(wǎng)絡(luò)的不可用。這個(gè)實(shí)際上是一個(gè)跨機(jī)房多活的方式。
跟大家介紹一下洛神的故障快速發(fā)現(xiàn)染色系統(tǒng),這個(gè)系統(tǒng)會(huì)對(duì)特定的流?
進(jìn)行染色并且加以匹配,作用于阿里云虛擬網(wǎng)絡(luò)和物理網(wǎng)絡(luò)上面。在整個(gè)設(shè)備的運(yùn)行過(guò)程中會(huì)對(duì)特定的業(yè)務(wù),特定的流染色進(jìn)行景象采樣,打時(shí)間搓等等,會(huì)進(jìn)行數(shù)據(jù)的實(shí)時(shí)分析。通過(guò)數(shù)據(jù)的實(shí)時(shí)分析快速發(fā)現(xiàn)特定的流的故障,比如說(shuō)丟包了,立即通知網(wǎng)絡(luò)管理人員恢復(fù)故障,這是我跟我們現(xiàn)在IT的思維基本上一致的,但是阿里云的洛神平臺(tái)主要是從客戶的業(yè)務(wù)出發(fā)。
智能性:其實(shí)智能與可靠性是密切相關(guān)的,因?yàn)橥ㄟ^(guò)智能監(jiān)控、智能運(yùn)維、智能故障恢復(fù),可以有效降低故障的時(shí)間。
提到智能,就必須介紹阿里云基于大數(shù)據(jù)的智能運(yùn)維平臺(tái),在阿里云內(nèi)部叫齊天系統(tǒng),通過(guò)數(shù)據(jù)面、控制面的各種數(shù)據(jù)收集,例如流數(shù)據(jù)、統(tǒng)計(jì)數(shù)據(jù)等等用戶信息,收集到大數(shù)據(jù)的分析工具(JStorm)里面去對(duì)數(shù)據(jù)進(jìn)行分類,我們分為基礎(chǔ)數(shù)據(jù)、監(jiān)控?cái)?shù)據(jù)和診斷數(shù)據(jù),對(duì)這些數(shù)據(jù)進(jìn)行規(guī)則的匹配、運(yùn)算,會(huì)將分析結(jié)果輸送到各個(gè)界面,比如說(shuō)報(bào)警、API、機(jī)器人等等,對(duì)于一些故障會(huì)進(jìn)行故障隔離恢復(fù),思路是差不多的。
介紹幾個(gè)現(xiàn)在正在使用的場(chǎng)景案例:
變更的案例:大家都知道線上很多的問(wèn)題都是因?yàn)榫W(wǎng)絡(luò)的變更導(dǎo)致的,怎么樣降低變更時(shí)對(duì)業(yè)務(wù)的影響,阿里云一般會(huì)選取業(yè)務(wù)量最小的對(duì)客戶影響最小的時(shí)間點(diǎn)去進(jìn)行變更。那怎么選擇時(shí)間點(diǎn)以往會(huì)通過(guò)人工的方式,這樣的話一方面工作量大,另外一方面其實(shí)也不精準(zhǔn),對(duì)業(yè)務(wù)的影響是不可知的。阿里云的齊天平臺(tái)可以通過(guò)大數(shù)據(jù)的分析,精準(zhǔn)描繪用戶網(wǎng)源的畫像,選擇業(yè)務(wù)量最小的時(shí)間點(diǎn)進(jìn)行自動(dòng)的變更。這樣的話大大降低了影響業(yè)務(wù)運(yùn)行的概率。另外很多時(shí)候要選擇版本上線的時(shí)間進(jìn)行恢復(fù),很多的時(shí)候難以判斷哪一些機(jī)房跟網(wǎng)源。利用大數(shù)據(jù)分析和齊天系統(tǒng)可以判斷哪些先進(jìn)行可以對(duì)業(yè)務(wù)的影響最小,這也是基于智能平臺(tái)去做的,所以在網(wǎng)絡(luò)變更的情況下可以達(dá)到對(duì)業(yè)務(wù)的影響很小,而且都是自動(dòng)化完成的。
異常的檢測(cè):齊天會(huì)對(duì)多種策略異常檢測(cè),并且用到線上去,在實(shí)際的運(yùn)行過(guò)程中判斷這些策略是否異常存在并首先告警,其次會(huì)進(jìn)行快速的逃逸過(guò)程。整個(gè)過(guò)程其實(shí)并不容易,因?yàn)橐獙?duì)全局全景進(jìn)行判斷,到底是屏蔽電路還是屏蔽結(jié)點(diǎn)還是整機(jī)房的倒換,要根據(jù)業(yè)務(wù)場(chǎng)景做綜合判斷才可以得出。實(shí)際上在阿里云的網(wǎng)絡(luò)上運(yùn)行時(shí)候正是齊天系統(tǒng)可以綜合判斷及決策,什么樣的故障逃逸對(duì)業(yè)務(wù)的影響是最小的。
看一下洛神的應(yīng)用情況。截止當(dāng)前整個(gè)阿里云的網(wǎng)絡(luò)規(guī)模已經(jīng)非常的龐大,對(duì)于虛擬網(wǎng)源來(lái)講已經(jīng)有百萬(wàn)級(jí)的網(wǎng)絡(luò)設(shè)備,千萬(wàn)級(jí)的網(wǎng)絡(luò)實(shí)例,并且監(jiān)控著超過(guò)一千多個(gè)的網(wǎng)絡(luò)指標(biāo)進(jìn)行一些大數(shù)據(jù)的分析。當(dāng)然對(duì)于運(yùn)行壓力最大的肯定還是雙十一這樣的場(chǎng)景。今年雙十一的數(shù)據(jù)還沒(méi)有完全得到。峰值的交易筆數(shù)達(dá)到了32.5萬(wàn),單一的負(fù)載均衡實(shí)例帶寬達(dá)到了160G,而且現(xiàn)在所有的阿里的業(yè)務(wù)都是運(yùn)行在阿里云的洛神系統(tǒng)上的,已經(jīng)都是VPC網(wǎng)絡(luò)上面的一個(gè)業(yè)務(wù)了。
最后總結(jié)洛神的使命,洛神有三代,第一經(jīng)典網(wǎng)絡(luò),主要是解決連通性的問(wèn)題,第二代推出了VPC的網(wǎng)絡(luò)用于安全隔離,當(dāng)前是第三代,打通了接入云的解決方案,提供跟傳統(tǒng)企業(yè)網(wǎng)絡(luò)相同能力的能力,最后一個(gè)階段阿里云定義為Networkless,最終的網(wǎng)絡(luò)對(duì)最終用戶其實(shí)是不可見(jiàn)的,就像阿里云網(wǎng)絡(luò)的名稱— 洛神,其實(shí)他像神一樣你看不到他的存在,其實(shí)他也無(wú)處不在。
評(píng)論