01
背景:算力需求暴漲、摩爾定律失效
當(dāng)前,企業(yè)云上業(yè)務(wù)需求趨勢正在大幅增長,算力需求呈“爆炸式”遞增。
直播/短視頻行業(yè)每天有上億用戶產(chǎn)出UGC視頻內(nèi)容發(fā)布在不同平臺,產(chǎn)生百萬核級視頻編碼算力需求和高業(yè)務(wù)成本?;?制藥行業(yè)涉及到的分子動力學(xué)模擬、基因序列對比、蛋白結(jié)構(gòu)分析,原來以實(shí)驗(yàn)為主,今天計(jì)算機(jī)模擬為主,從原子-分子單位的行為進(jìn)行計(jì)算,消耗大量的算力。電商行業(yè)從流量為主轉(zhuǎn)變?yōu)榫婊\(yùn)營過程中所需的AI推理、大數(shù)據(jù)畫像,智能精準(zhǔn)推薦對算力需求也越來越旺盛。以AI為代表的算力規(guī)模每三個(gè)半月就會翻一倍。
然而,在算力需求暴漲的同時(shí),摩爾定律演進(jìn)速度卻在減慢,硬件技術(shù)進(jìn)步的紅利見底。
如今,每迭代一代CPU,服務(wù)器和數(shù)據(jù)中心的功耗和成本攀升,每千瓦芯片功耗在生命周期內(nèi)帶來上萬美金的成本;硬件和芯片的成本也在逐代上漲。
在云這類面向多租戶的場景下,超線程(HT)架構(gòu)的問題逐漸暴露出來,面對一些高密計(jì)算任務(wù)時(shí)很難滿足業(yè)務(wù)需求,共享內(nèi)存與物理核的機(jī)制導(dǎo)致租戶之間處理任務(wù)可能需要相互排隊(duì),導(dǎo)致性能大幅下降;或者互相干擾的情況導(dǎo)致性能波動。
如何能在實(shí)現(xiàn)高性能(減少干擾)的同時(shí)實(shí)現(xiàn)低功耗、低成本?我們認(rèn)為,以此前的技術(shù)方案,無法解決業(yè)務(wù)需求和痛點(diǎn),需要設(shè)計(jì)一款云原生芯片,結(jié)合現(xiàn)有的阿里云軟硬件架構(gòu),才能更好地解決客戶應(yīng)用的需求。
我們先來看下結(jié)果:在編解碼的場景下,ECS倚天實(shí)例和傳統(tǒng)實(shí)例相比,實(shí)現(xiàn)了80%的性價(jià)比提升,數(shù)據(jù)庫場景、AI推理場景、大數(shù)據(jù)場景也都分別有著30%、70%、50%的性價(jià)比有效提升。目前,ECS倚天實(shí)例已應(yīng)用于阿里巴巴集團(tuán)核心業(yè)務(wù),并服務(wù)科學(xué)研究、智能手機(jī)行業(yè)和多家知名互聯(lián)網(wǎng)公司。2021 年雙 11 期間,天貓雙 11 核心交易系統(tǒng)平滑遷移至倚天 710 云實(shí)例,算力性價(jià)比提升30%;匯量科技廣告推理業(yè)務(wù)使用倚天 710 云實(shí)例,性能和網(wǎng)絡(luò)帶寬雙雙提升,性價(jià)比提升 40% 以上。
02
“倚天”利劍出鞘:軟硬一體的云原生ECS架構(gòu)
ECS倚天實(shí)例是如何實(shí)現(xiàn)大幅的性價(jià)比提升的?我們從不同ECS產(chǎn)品架構(gòu)層面,包括:云原生處理器倚天710、云計(jì)算基礎(chǔ)設(shè)施處理器CIPU、云原生應(yīng)用優(yōu)化方案ECS Booster?等不同層面,給大家分享。
倚天710:高性能、低功耗
我們先來看下倚天710處理器在設(shè)計(jì)上,是如何解決上述問題的。
從芯片層面看,主要影響應(yīng)用性能的四大要素包括ALU(邏輯計(jì)算單元)、Cache、主頻、加速指令。
首先,倚天710 單顆CPU即實(shí)現(xiàn)了128核的高密度設(shè)計(jì),高規(guī)格實(shí)例可以實(shí)現(xiàn)線性的性能增長;同時(shí)處理器無超線程概念,避免了性能爭搶的問題:獨(dú)享物理核,性能更強(qiáng)勁;獨(dú)享Cache,應(yīng)用緩存更高效。
x86架構(gòu)是兩個(gè)vCPU/HT共享一個(gè)物理核,1份ALU(算術(shù)邏輯運(yùn)算單元)。ECS倚天實(shí)例采用的是獨(dú)享物理核心方式,這可以讓算力密集的計(jì)算指令不必排隊(duì)、不必爭搶,計(jì)算速度更快。
在Cache維度,過去兩個(gè)vCPU/HT共享一二級緩存,相互爭搶,性能波動較為嚴(yán)重。采用倚天CPU獨(dú)享Cache的設(shè)計(jì),讓vCPU之間相互不影響,為重負(fù)載計(jì)算帶來更高性能。
影響算力性能的關(guān)鍵因素,除了核的資源,還有主頻。
大家知道為什么多數(shù)Web、App、DB的生產(chǎn)業(yè)務(wù)CPU使用率的安全水位線是50%,日常水位低于30%嗎?
以下圖中的視頻編碼為例,并發(fā)超過4路后,性能下降40%;再加上前面說到的核爭搶問題,如果客戶的實(shí)際業(yè)務(wù)超過50-60%水位,關(guān)鍵生產(chǎn)應(yīng)用將響應(yīng)放慢,客戶感知卡頓甚至超時(shí)問題。因此需要將CPU使用率安全水位壓低,犧牲成本保證安全,浪費(fèi)了另外50%資源。
背后的原因是x86功耗大,高算力負(fù)載很容易造成功耗過大,溫度上升,因此采用降頻規(guī)避,進(jìn)而影響了性能。而倚天710的功耗是主流x86的1/6,沒有任何降頻問題。同時(shí)也推薦倚天的安全水位可以提高到70-80%,減少資源浪費(fèi)。
在云上多租戶共用平臺,即使用戶運(yùn)行低負(fù)載應(yīng)用,也存在相互影響的風(fēng)險(xiǎn),倚天徹底解決了此問題。下圖展示的案例就可以看到,在視頻編解碼四路以上時(shí),代表倚天的橙色部分基本保持恒定,x86則會降低幅度40%。
值得一提的是,倚天710還針對特定算法場景進(jìn)行了加速與優(yōu)化。比如像NEON、SVE等矢量計(jì)算技術(shù),可以讓單條指令處理更長的數(shù)據(jù),可以大幅提升機(jī)器學(xué)習(xí)、視頻編碼和高性能計(jì)算等場景性能;另外,倚天實(shí)例還支持BF16和INT8,在機(jī)器學(xué)習(xí)場景下,大幅提升計(jì)算效率,為客戶提供更多選擇。
以CIPU為中心的架構(gòu):高密、穩(wěn)定、強(qiáng)勁
除了芯片本身能力,為了實(shí)現(xiàn)降本增效,倚天ECS實(shí)例基于云原生的硬件架構(gòu)設(shè)計(jì)。
傳統(tǒng)的服務(wù)器常常設(shè)計(jì)為2路或4路,通過多NUMA互連的方式提升整機(jī)CPU密度,讓一個(gè)OS調(diào)度更多CPU算力,卻也增加了復(fù)雜度。在這種架構(gòu)下,隨著核數(shù)增加,網(wǎng)絡(luò)和存儲IO也快速翻番,還要保持跨NUMA cache一致性,導(dǎo)致應(yīng)用性能下降;同時(shí)也帶來爆炸半徑過大的問題,在云計(jì)算場景下,多路的設(shè)計(jì)會讓局部硬件故障的影響范圍更大。
阿里云采用云原生的思想重新設(shè)計(jì)。倚天710 CPU單顆CPU即實(shí)現(xiàn)了128核的高密度設(shè)計(jì),同時(shí)以CIPU為中心的硬件架構(gòu),通過CIPU連接2顆或者更多倚天的芯片,去NUMA方案下實(shí)現(xiàn)整機(jī)核密度更高,避免了跨NUMA帶來的性能下降,同時(shí)由整機(jī)的高密度帶來了成本下降,使得倚天實(shí)例更有競爭力。同時(shí),多單路的硬件機(jī)型設(shè)計(jì),爆炸半徑減半,產(chǎn)品更穩(wěn)定。
此外CIPU硬件本身也是創(chuàng)新性的設(shè)計(jì),通過將虛擬化與IO轉(zhuǎn)發(fā)等數(shù)據(jù)面卸載到專用硬件上進(jìn)行加速,消除了原來虛擬化損耗與性能爭搶,并大幅加速了IO,也會使得整體性能更高;VPC環(huán)境下支持彈性RDMA加速能力,相比TCP時(shí)延降低70%以上。
ECS Booster
ECS Booster是阿里云在倚天實(shí)例上提供的軟件性能優(yōu)化方案,通過網(wǎng)絡(luò)中斷優(yōu)化、操作系統(tǒng)優(yōu)化、應(yīng)用層優(yōu)化等技術(shù),針對web、APP、數(shù)據(jù)庫等主流場景進(jìn)行優(yōu)化,運(yùn)行在倚天實(shí)例上阿里云PaaS產(chǎn)品的性能獲已經(jīng)實(shí)現(xiàn)得顯著性能收益,相信也能給客戶業(yè)務(wù)場景帶來明顯受益。
03
全場景性能大幅提升
11月15日,ECS G8y(倚天實(shí)例)將正式上線,產(chǎn)品規(guī)格覆蓋1-128核,全面搭載eRDMA加速能力,可以大大提升軟件性能。
ECS G8y(倚天實(shí)例)有著性能卓越、生態(tài)豐富,綠色降本三個(gè)方向的業(yè)務(wù)價(jià)值,其中關(guān)于性能收益及增長方面有著很好的數(shù)據(jù)表現(xiàn)。
前文說到的云原生處理器和創(chuàng)新的硬件架構(gòu),最終在應(yīng)用上有哪些性能收益?我們從Web、App、Media、DB、大數(shù)據(jù)、科學(xué)計(jì)算、AI推理等七個(gè)最廣泛場景來看產(chǎn)品性能表現(xiàn)。
Web場景:綜合性能提升30%
Web場景是互聯(lián)網(wǎng)中應(yīng)用場景最多、消耗服務(wù)器資源最多的場景。為了解決移動場景流量和體驗(yàn)問題,服務(wù)端常常采用網(wǎng)頁壓縮方案節(jié)約帶寬。但壓縮算法非常消耗CPU算力和時(shí)間,導(dǎo)致隊(duì)列中多客戶請求時(shí)延變長。
倚天擁有獨(dú)立CPU物理核,結(jié)合SVE指令加速,單vCPU數(shù)據(jù)壓縮性能翻倍,前面提到的體驗(yàn)影響減半。Web場景包括Nginx、Apache、NodeJS、PHP等排名靠前的應(yīng)用,倚天實(shí)例對比阿里云G7系列實(shí)例,綜合性能提升30%左右。
阿里云防火墻CFW已經(jīng)實(shí)現(xiàn)倚天ECS遷移。CFW為客戶業(yè)務(wù)提供安全防護(hù),需進(jìn)行大量正則表達(dá)規(guī)則進(jìn)行掃描,消耗大量算力,影響業(yè)務(wù)性能。采用獨(dú)享物理核的ECS倚天實(shí)例,實(shí)現(xiàn)安全和體驗(yàn)收益兼得。在不同正則匹配性能優(yōu)勢分別為23%、40%、28%。
App編程語言性能:多數(shù)性能提升40%
不管是編譯型語言C、Go等還是無需編譯的語言Java、Python等,都很好的平滑兼容ARM架構(gòu),我們可以看到,使用開源的Benchmark進(jìn)行測試,應(yīng)用運(yùn)行在ECS倚天實(shí)例上獲得的性能提升多數(shù)有40%。
編解碼場景:20-40%性能提升
短視頻和直播是如今最火熱的應(yīng)用,UGC時(shí)代內(nèi)容指數(shù)級增長,編解碼算力消耗也隨之增長。如今最流行的H.264算法速度快,節(jié)約算力,但是編碼后的文件更大,消耗更多存儲和帶寬。H.265可以很好解決此問題,使用比重快速增長,但多消耗1倍算力成本。
無論是在哪種場景下,倚天的視頻編解碼性能均比x86實(shí)例更高,成本更低。
如圖,上述兩類視頻編碼規(guī)范的編碼器X.264、X.265運(yùn)行在ECS倚天實(shí)例上,都收獲了20-40%性能提升;這個(gè)過程中我們進(jìn)行了大量矢量指令優(yōu)化,使性能大幅提高,優(yōu)化軟件可以向客戶輸出。
數(shù)據(jù)庫場景:10-30%性能提升
數(shù)據(jù)庫場景下,運(yùn)行在ECS倚天實(shí)例上,相較與G7實(shí)例,開源軟件Redis、Memcached有30%性能優(yōu)勢,MySQL和PGSQL有10-20%性能優(yōu)勢。
阿里集團(tuán)電商業(yè)務(wù)所使用的Tair數(shù)據(jù)庫也已經(jīng)遷移到倚天平臺,協(xié)議上兼容Redis,性能是開源Redis數(shù)據(jù)庫的3倍。Tair支撐了多年天貓雙11大促,有強(qiáng)大的緩存能力,需要把數(shù)據(jù)緩存到內(nèi)存,消耗Memory資源。我們采用倚天強(qiáng)大的算力優(yōu)勢進(jìn)行數(shù)據(jù)壓縮,讓內(nèi)存成本降低60%,疊加倚天實(shí)例自帶的eRDMA加速能力,可以提升吞吐量80%,時(shí)延降低15%以上。目前基于ECS倚天實(shí)例的Tair產(chǎn)品已經(jīng)上線,大家可以在云上使用。
大數(shù)據(jù)場景:20-60%性能提升
在需要消耗大量IO、大量計(jì)算以及高內(nèi)存帶寬的大數(shù)據(jù)場景中,ECS倚天實(shí)例由于擁有獨(dú)立物理核、Cache更大、網(wǎng)絡(luò)時(shí)延更低等特點(diǎn),運(yùn)行Spark應(yīng)用性能收益20%以上,搜索Elastic Search和流計(jì)算Flink場景性能收益達(dá)到40%和60%。上述大數(shù)據(jù)開源軟件,直接編譯即可在倚天實(shí)例上運(yùn)行,歡迎大家試用。
科學(xué)計(jì)算:20%以上性能提升
在科學(xué)計(jì)算等場景下,相比于同規(guī)格x86云實(shí)例,運(yùn)行在倚天實(shí)例上的基因、制藥,汽車領(lǐng)域等方面的算法都有20%左右的收益,我們近期有兩個(gè)伙伴測試分子動力學(xué)和EDA應(yīng)用,甚至實(shí)現(xiàn)了性能翻倍。這主要是由于科學(xué)計(jì)算場景使用的主要是物理核資源,倚天實(shí)例與同規(guī)格的x86實(shí)例相比,核物理核數(shù)量是后者的兩倍,計(jì)算性能更高。
阿里云彈性高性能計(jì)算平臺E-HPC、彈性伸縮等云上工具已經(jīng)支持ARM平臺,主要科學(xué)算法也都可以平滑兼容。
AI推理:性能提升1倍
AI場景算力消耗增長飛快,成本占比急劇上升。推理場景下典型的搜推廣客戶都無法接受下調(diào)精度(影響模型準(zhǔn)確度)降本。阿里云彈性計(jì)算團(tuán)隊(duì)和達(dá)摩院合作,推出了HIE-Engine動態(tài)量化方案,利用倚天實(shí)例的INT8加速能力,可將RestNet和Bert場景性能提升1倍,且精度沒有損失。
04
降低碳排放、降低成本
對于企業(yè)客戶來說,除了業(yè)務(wù)性能表現(xiàn),IT碳排放和成本也很重要的一環(huán)。今天的這款倚天處理器,可以在CPU負(fù)載30%的情況下,每vCPU功耗比x86降低6倍,整機(jī)功耗降低60%以上。碳排放也等比降低。全國IDC年耗電量約2000多億度,相當(dāng)于兩個(gè)三峽大壩的發(fā)電量,采用倚天實(shí)例進(jìn)行替換,可以省下一整個(gè)三峽的電量。
除了綠色低碳,企業(yè)還能降低IT成本,大家可以看圖中的定價(jià),倚天實(shí)例對比最新一代主售實(shí)例定價(jià)是30%、23%、22%的降本幅度,將技術(shù)收益讓利給客戶。
使用這款產(chǎn)品會獲得更好的性價(jià)比。在前面提到的七大主要應(yīng)用場景,平均性價(jià)比(性能÷價(jià)格)收益可達(dá)50-80%。
05
豐富的軟件生態(tài)及應(yīng)用案例
下圖為ARM服務(wù)器軟件生態(tài),包括主流OS、編程語言、Lib庫、開源應(yīng)用。這些軟件我們都做過使用和測試,可以做到無需修改代碼即可運(yùn)行。遷移文檔、遷移工具等方案可見以下鏈接:
https://help.aliyun.com/document_detail/462190.html
目前在阿里云產(chǎn)品中,RDS、容器、PAI、視頻云等多款PaaS產(chǎn)品接入倚天ECS;阿里集團(tuán)電商業(yè)務(wù)也使用了倚天ECS,有效支撐阿里618、99大促以及雙11大促多個(gè)活動。外部有短視頻、Web、游戲、廣告等客戶提前使用了新產(chǎn)品。
最后總結(jié)一下關(guān)鍵詞。
技術(shù)關(guān)鍵詞:倚天710云原生處理器(獨(dú)立物理核、重新定義CPU水位)、CIPU為中心的硬件架構(gòu)(業(yè)界最高密度、NUMA less提高穩(wěn)定性、硬件加速)、ECS booster方案(加速應(yīng)用性能);
關(guān)鍵數(shù)字:性能提升30%以上,性價(jià)比提升50%;節(jié)約用電1個(gè)三峽。
再次感謝各位見證硬核技術(shù)的倚天專場,今天倚天的一小步,將是改變未來IT歷史、改變云計(jì)算浪潮的一大步,感謝大家!
編輯:黃飛
?
評論