OpenStack Object Storage(Swift)是OpenStack開源云計(jì)算項(xiàng)目的子項(xiàng)目之一,被稱為對(duì)象存儲(chǔ),提供了強(qiáng)大的擴(kuò)展性、冗余和持久性。本文將從架構(gòu)、原理和實(shí)踐等幾方面講述Swift。 Swift并不是文件系統(tǒng)或者實(shí)時(shí)的數(shù)據(jù)存儲(chǔ)系統(tǒng),它稱為對(duì)象存儲(chǔ),用于永久類型的靜態(tài)數(shù)據(jù)的長(zhǎng)期存儲(chǔ),這些數(shù)據(jù)可以檢索、調(diào)整,必要時(shí)進(jìn)行更新。最適合存儲(chǔ)的數(shù)據(jù)類型的例子是虛擬機(jī)鏡像、圖片存儲(chǔ)、郵件存儲(chǔ)和存檔備份。因?yàn)闆]有中心單元或主控結(jié)點(diǎn),Swift提供了更強(qiáng)的擴(kuò)展性、冗余和持久性。Swift前身是Rackspace Cloud Files項(xiàng)目,隨著Rackspace加入到OpenStack社區(qū),于2010年7月貢獻(xiàn)給OpenStack,作為該開源項(xiàng)目的一部分。Swift目前的最新版本是OpenStack Essex 1.5.1。
新浪SAE團(tuán)隊(duì)對(duì)Swift有將近一年的研究和運(yùn)營(yíng)經(jīng)驗(yàn)。在深入剖析Swift架構(gòu)和原理、完全掌握Swift源碼,并且經(jīng)過一段時(shí)間的測(cè)試和運(yùn)營(yíng)之后,我們決定將推出基于Swift的SAE Storage服務(wù)。目前,已完成開發(fā),并于一個(gè)月前開始線上運(yùn)行,且表現(xiàn)非常出色。因此,下面將分享一下我們?cè)赟wift上的一些研究和工作。
Swift特性
在OpenStack官網(wǎng)中,列舉了Swift的20多個(gè)特性,其中最引人關(guān)注的是以下幾點(diǎn)。
極高的數(shù)據(jù)持久性
一些朋友經(jīng)常將數(shù)據(jù)持久性(Durability)與系統(tǒng)可用性(Availability)兩個(gè)概念混淆,前者也理解為數(shù)據(jù)的可靠性,是指數(shù)據(jù)存儲(chǔ)到系統(tǒng)中后,到某一天數(shù)據(jù)丟失的可能性。例如Amazon S3的數(shù)據(jù)持久性是11個(gè)9,即如果存儲(chǔ)1萬(4個(gè)0)個(gè)文件到S3中,1千萬(7個(gè)0)年之后,可能會(huì)丟失其中1個(gè)文件。那么Swift能提供多少個(gè)9的SLA呢?下文會(huì)給出答案。針對(duì)Swift在新浪測(cè)試環(huán)境中的部署,我們從理論上測(cè)算過,Swift在5個(gè)Zone、5×10個(gè)存儲(chǔ)節(jié)點(diǎn)的環(huán)境下,數(shù)據(jù)復(fù)制份是為3,數(shù)據(jù)持久性的SLA能達(dá)到10個(gè)9。
完全對(duì)稱的系統(tǒng)架構(gòu)
“對(duì)稱”意味著Swift中各節(jié)點(diǎn)可以完全對(duì)等,能極大地降低系統(tǒng)維護(hù)成本。
無限的可擴(kuò)展性
這里的擴(kuò)展性分兩方面,一是數(shù)據(jù)存儲(chǔ)容量無限可擴(kuò)展;二是Swift性能(如QPS、吞吐量等)可線性提升。因?yàn)镾wift是完全對(duì)稱的架構(gòu),擴(kuò)容只需簡(jiǎn)單地新增機(jī)器,系統(tǒng)會(huì)自動(dòng)完成數(shù)據(jù)遷移等工作,使各存儲(chǔ)節(jié)點(diǎn)重新達(dá)到平衡狀態(tài)。
無單點(diǎn)故障
在互聯(lián)網(wǎng)業(yè)務(wù)大規(guī)模應(yīng)用的場(chǎng)景中,存儲(chǔ)的單點(diǎn)一直是個(gè)難題。例如數(shù)據(jù)庫(kù),一般的HA方法只能做主從,并且“主”一般只有一個(gè);還有一些其他開源存儲(chǔ)系統(tǒng)的實(shí)現(xiàn)中,元數(shù)據(jù)信息的存儲(chǔ)一直以來是個(gè)頭痛的地方,一般只能單點(diǎn)存儲(chǔ),而這個(gè)單點(diǎn)很容易成為瓶頸,并且一旦這個(gè)點(diǎn)出現(xiàn)差異,往往能影響到整個(gè)集群,典型的如HDFS。而Swift的元數(shù)據(jù)存儲(chǔ)是完全均勻隨機(jī)分布的,并且與對(duì)象文件存儲(chǔ)一樣,元數(shù)據(jù)也會(huì)存儲(chǔ)多份。整個(gè)Swift集群中,也沒有一個(gè)角色是單點(diǎn)的,并且在架構(gòu)和設(shè)計(jì)上保證無單點(diǎn)業(yè)務(wù)是有效的。
簡(jiǎn)單、可依賴
簡(jiǎn)單體現(xiàn)在架構(gòu)優(yōu)美、代碼整潔、實(shí)現(xiàn)易懂,沒有用到一些高深的分布式存儲(chǔ)理論,而是很簡(jiǎn)單的原則。可依賴是指Swift經(jīng)測(cè)試、分析之后,可以放心大膽地將Swift用于最核心的存儲(chǔ)業(yè)務(wù)上,而不用擔(dān)心Swift捅簍子,因?yàn)椴还艹霈F(xiàn)任何問題,都能通過日志、閱讀代碼迅速解決。
應(yīng)用場(chǎng)景
Swift提供的服務(wù)與Amazon S3相同,適用于許多應(yīng)用場(chǎng)景。最典型的應(yīng)用是作為網(wǎng)盤類產(chǎn)品的存儲(chǔ)引擎,比如Dropbox背后就是使用Amazon S3作為支撐的。在OpenStack中還可以與鏡像服務(wù)Glance結(jié)合,為其存儲(chǔ)鏡像文件。另外,由于Swift的無限擴(kuò)展能力,也非常適合用于存儲(chǔ)日志文件和數(shù)據(jù)備份倉(cāng)庫(kù)。
Swift架構(gòu)概述
Swift主要有三個(gè)組成部分:Proxy Server、Storage Server和Consistency Server。其架構(gòu)如圖1所示,其中Storage和Consistency服務(wù)均允許在Storage Node上。Auth認(rèn)證服務(wù)目前已從Swift中剝離出來,使用OpenStack的認(rèn)證服務(wù)Keystone,目的在于實(shí)現(xiàn)統(tǒng)一OpenStack各個(gè)項(xiàng)目間的認(rèn)證管理。

?
圖1 Swift部署架構(gòu)
主要組件
Proxy Server
Proxy Server是提供Swift API的服務(wù)器進(jìn)程,負(fù)責(zé)Swift其余組件間的相互通信。對(duì)于每個(gè)客戶端的請(qǐng)求,它將在Ring中查詢Account、Container或Object的位置,并且相應(yīng)地轉(zhuǎn)發(fā)請(qǐng)求。Proxy提供了Rest-full API,并且符合標(biāo)準(zhǔn)的HTTP協(xié)議規(guī)范,這使得開發(fā)者可以快捷構(gòu)建定制的Client與Swift交互。
Storage Server
Storage Server提供了磁盤設(shè)備上的存儲(chǔ)服務(wù)。在Swift中有三類存儲(chǔ)服務(wù)器:Account、Container和Object。其中Container服務(wù)器負(fù)責(zé)處理Object的列表,Container服務(wù)器并不知道對(duì)象存放位置,只知道指定Container里存的哪些Object。這些Object信息以sqlite數(shù)據(jù)庫(kù)文件的形式存儲(chǔ)。Container服務(wù)器也做一些跟蹤統(tǒng)計(jì),例如Object的總數(shù)、Container的使用情況。
Consistency Servers
在磁盤上存儲(chǔ)數(shù)據(jù)并向外提供Rest-ful API并不是難以解決的問題,最主要的問題在于故障處理。Swift的Consistency Servers的目的是查找并解決由數(shù)據(jù)損壞和硬件故障引起的錯(cuò)誤。主要存在三個(gè)Server:Auditor、Updater和Replicator。 Auditor運(yùn)行在每個(gè)Swift服務(wù)器的后臺(tái)持續(xù)地掃描磁盤來檢測(cè)對(duì)象、Container和賬號(hào)的完整性。如果發(fā)現(xiàn)數(shù)據(jù)損壞,Auditor就會(huì)將該文件移動(dòng)到隔離區(qū)域,然后由Replicator負(fù)責(zé)用一個(gè)完好的拷貝來替代該數(shù)據(jù)。圖2給出了隔離對(duì)象的處理流圖。 在系統(tǒng)高負(fù)荷或者發(fā)生故障的情況下,Container或賬號(hào)中的數(shù)據(jù)不會(huì)被立即更新。如果更新失敗,該次更新在本地文件系統(tǒng)上會(huì)被加入隊(duì)列,然后Updaters會(huì)繼續(xù)處理這些失敗了的更新工作,其中由Account Updater和Container Updater分別負(fù)責(zé)Account和Object列表的更新。 Replicator的功能是處理數(shù)據(jù)的存放位置是否正確并且保持?jǐn)?shù)據(jù)的合理拷貝數(shù),它的設(shè)計(jì)目的是Swift服務(wù)器在面臨如網(wǎng)絡(luò)中斷或者驅(qū)動(dòng)器故障等臨時(shí)性故障情況時(shí)可以保持系統(tǒng)的一致性。

?
圖2 隔離對(duì)象的處理流圖
Ring
Ring是Swift最重要的組件,用于記錄存儲(chǔ)對(duì)象與物理位置間的映射關(guān)系。在涉及查詢Account、Container、Object信息時(shí),就需要查詢集群的Ring信息。 Ring使用Zone、Device、Partition和Replica來維護(hù)這些映射信息。Ring中每個(gè)Partition在集群中都(默認(rèn))有3個(gè)Replica。每個(gè)Partition的位置由Ring來維護(hù),并存儲(chǔ)在映射中。Ring文件在系統(tǒng)初始化時(shí)創(chuàng)建,之后每次增減存儲(chǔ)節(jié)點(diǎn)時(shí),需要重新平衡一下Ring文件中的項(xiàng)目,以保證增減節(jié)點(diǎn)時(shí),系統(tǒng)因此而發(fā)生遷移的文件數(shù)量最少。
原理
Swift用到的算法和存儲(chǔ)理論并不復(fù)雜,主要有幾下幾個(gè)概念。
一致性哈希算法
Swift利用一致性哈希算法構(gòu)建了一個(gè)冗余的可擴(kuò)展的分布式對(duì)象存儲(chǔ)集群。Swift采用一致性哈希的主要目的是在改變集群的Node數(shù)量時(shí),能夠盡可能少地改變已存在Key和Node的映射關(guān)系。 該算法的思路分為以下三個(gè)步驟。 首先計(jì)算每個(gè)節(jié)點(diǎn)的哈希值,并將其分配到一個(gè)0~232的圓環(huán)區(qū)間上。其次使用相同方法計(jì)算存儲(chǔ)對(duì)象的哈希值,也將其分配到這個(gè)圓環(huán)上。隨后從數(shù)據(jù)映射到的位置開始順時(shí)針查找,將數(shù)據(jù)保存到找到的第一個(gè)節(jié)點(diǎn)上。如果超過232仍然找不到節(jié)點(diǎn),就會(huì)保存到第一個(gè)節(jié)點(diǎn)上。 假設(shè)在這個(gè)環(huán)形哈??臻g中存在4臺(tái)Node,若增加一臺(tái)Node5,根據(jù)算法得出Node5被映射在Node3和Node4之間,那么受影響的將僅是沿Node5逆時(shí)針遍歷到Node3之間的對(duì)象(它們本來映射到Node4上)。其分布如圖3所示。

?
圖3 一致性哈希環(huán)結(jié)構(gòu)
Replica
如果集群中的數(shù)據(jù)在本地節(jié)點(diǎn)上只有一份,一旦發(fā)生故障就可能會(huì)造成數(shù)據(jù)的永久性丟失。因此,需要有冗余的副本來保證數(shù)據(jù)安全。Swift中引入了Replica的概念,其默認(rèn)值為3,理論依據(jù)主要來源于NWR策略(也叫Quorum協(xié)議)。 NWR是一種在分布式存儲(chǔ)系統(tǒng)中用于控制一致性級(jí)別的策略。在Amazon的Dynamo云存儲(chǔ)系統(tǒng)中,使用了NWR來控制一致性。其中,N代表同一份數(shù)據(jù)的Replica的份數(shù),W是更新一個(gè)數(shù)據(jù)對(duì)象時(shí)需要確保成功更新的份數(shù);R代表讀取一個(gè)數(shù)據(jù)需要讀取的Replica的份數(shù)。 公式W+R>N,保證某個(gè)數(shù)據(jù)不被兩個(gè)不同的事務(wù)同時(shí)讀和寫;公式W>N/2保證兩個(gè)事務(wù)不能并發(fā)寫某一個(gè)數(shù)據(jù)。 在分布式系統(tǒng)中,數(shù)據(jù)的單點(diǎn)是不允許存在的。即線上正常存在的Replica數(shù)量為1的情況是非常危險(xiǎn)的,因?yàn)橐坏┻@個(gè)Replica再次出錯(cuò),就可能發(fā)生數(shù)據(jù)的永久性錯(cuò)誤。假如我們把N設(shè)置成為2,那么只要有一個(gè)存儲(chǔ)節(jié)點(diǎn)發(fā)生損壞,就會(huì)有單點(diǎn)的存在,所以N必須大于2。N越高,系統(tǒng)的維護(hù)成本和整體成本就越高。工業(yè)界通常把N設(shè)置為3。例如,對(duì)于MySQL主從結(jié)構(gòu),其NWR數(shù)值分別是N= 2, W = 1, R = 1,沒有滿足NWR策略。而Swift的N=3, W=2, R=2,完全符合NWR策略,因此Swift系統(tǒng)是可靠的,沒有單點(diǎn)故障。
Zone
如果所有的Node都在一個(gè)機(jī)架或一個(gè)機(jī)房中,那么一旦發(fā)生斷電、網(wǎng)絡(luò)故障等,都將造成用戶無法訪問。因此需要一種機(jī)制對(duì)機(jī)器的物理位置進(jìn)行隔離,以滿足分區(qū)容忍性(CAP理論中的P)。因此,Ring中引入了Zone的概念,把集群的Node分配到每個(gè)Zone中。其中同一個(gè)Partition的Replica不能同時(shí)放在同一個(gè)Node上或同一個(gè)Zone內(nèi)。注意,Zone的大小可以根據(jù)業(yè)務(wù)需求和硬件條件自定義,可以是一塊磁盤、一臺(tái)存儲(chǔ)服務(wù)器,也可以是一個(gè)機(jī)架甚至一個(gè)IDC。
Weight
Ring引入Weight的目的是解決未來添加存儲(chǔ)能力更大的Node時(shí),分配到更多的Partition。例如,2TB容量的Node的Partition數(shù)為1TB的兩倍,那么就可以設(shè)置2TB的Weight為200,而1TB的為100。

?
圖4 一種Swift部署集群
實(shí)例分析
圖4中是新浪SAE在測(cè)試環(huán)境中部署的Swift集群,集群中又分為5個(gè)Zone,每個(gè)Zone是一臺(tái)存儲(chǔ)服務(wù)器,每臺(tái)服務(wù)器上由12塊2TB的SATA磁盤組成,只有操作系統(tǒng)安裝盤需要RAID,其他盤作為存儲(chǔ)節(jié)點(diǎn),不需要RAID。前面提到過,Swift采用完全對(duì)稱的系統(tǒng)架構(gòu),在這個(gè)部署案例中得到了很好的體現(xiàn)。圖4中每個(gè)存儲(chǔ)服務(wù)器的角色是完全對(duì)等的,系統(tǒng)配置完全一樣,均安裝了所有Swift服務(wù)軟件包,如Proxy Server、Container Server和Account Server等。上面的負(fù)載均衡(Load Balancer)并不屬于Swift的軟件包,出于安全和性能的考慮,一般會(huì)在業(yè)務(wù)之前擋一層負(fù)載均衡設(shè)備。當(dāng)然可以去掉這層代理,讓Proxy Server直接接收用戶的請(qǐng)求,但這可能不太適合在生產(chǎn)環(huán)境中使用。 圖4中分別表示了上傳文件PUT和下載文件GET請(qǐng)求的數(shù)據(jù)流,兩個(gè)請(qǐng)求操作的是同一個(gè)對(duì)象。上傳文件時(shí),PUT請(qǐng)求通過負(fù)載均衡隨機(jī)挑選一臺(tái)Proxy Server,將請(qǐng)求轉(zhuǎn)發(fā)到后者,后者通過查詢本地的Ring文件,選擇3個(gè)不同Zone中的后端來存儲(chǔ)這個(gè)文件,然后同時(shí)將該文件向這三個(gè)存儲(chǔ)節(jié)點(diǎn)發(fā)送文件。這個(gè)過程需要滿足NWR策略(Quorum Protocol),即3份存儲(chǔ),寫成功的份數(shù)必須大于3/2,即必須保證至少2份數(shù)據(jù)寫成功,再給用戶返回文件寫成功的消息。下載文件時(shí),GET請(qǐng)求也通過負(fù)載均衡隨機(jī)挑選一臺(tái)Proxy Server,后者上的Ring文件能查詢到這個(gè)文件存儲(chǔ)在哪三個(gè)節(jié)點(diǎn)中,然后同時(shí)去向后端查詢,至少有2個(gè)存儲(chǔ)節(jié)點(diǎn)“表示”可以提供該文件,然后Proxy Server從中選擇一個(gè)節(jié)點(diǎn)下載文件。
小結(jié)
Swift簡(jiǎn)單、冗余、可擴(kuò)展的架構(gòu)設(shè)計(jì)保證了它能夠用于IaaS的基礎(chǔ)服務(wù)。在Rackspace Cloud Files服務(wù)兩年的運(yùn)行積累使得Swift代碼變得越來越成熟,目前已部署在全球各地的公有云、私有云服務(wù)中。隨著OpenStack的不斷完善和發(fā)展,Swift將得到更廣泛的應(yīng)用。
評(píng)論