RISC-V架構(gòu)以追趕者的姿態(tài)在多個(gè)應(yīng)用領(lǐng)域與X86架構(gòu)和ARM架構(gòu)展開競爭。在服務(wù)器應(yīng)用領(lǐng)域,RISC-V架構(gòu)正在重新定義服務(wù)器芯片領(lǐng)域必備的安全、虛擬化和RAS等規(guī)格和規(guī)范。
服務(wù)器CPU芯片作為服務(wù)器核心部件,承擔(dān)了CPU算力、高速內(nèi)存接口和高速IO傳輸接口等功能。從應(yīng)用場景和需求出發(fā),RAS(Reliability、Availability、Serviceability)已經(jīng)成為服務(wù)器系統(tǒng)必備的功能屬性:高可靠性(Reliability)可以延長整個(gè)系統(tǒng)硬件“滿血”運(yùn)行的持續(xù)時(shí)間,此階段為服務(wù)器系統(tǒng)最理想狀態(tài);高可用性(Availability)使得硬件系統(tǒng)發(fā)生隨機(jī)或者持續(xù)硬件故障時(shí),通過軟硬件協(xié)同處理,系統(tǒng)仍然可以維持“殘血”運(yùn)行,不至于因?yàn)殛P(guān)機(jī)導(dǎo)致服務(wù)中斷;高可維護(hù)性(Serviceability)使得在系統(tǒng)崩潰時(shí),能夠迅速定位故障,通過替換部件等方式對服務(wù)器進(jìn)行“補(bǔ)血”,為系統(tǒng)盡快恢復(fù)運(yùn)行提供保障。

(圖1:RAS定義框架)
進(jìn)迭時(shí)空以RISC-V高性能算力計(jì)算核心SpacemiTX100 Core為基礎(chǔ)構(gòu)建的服務(wù)器CPU芯片,充分考慮了服務(wù)器的RAS需求,集成了包含RAS組件功能特性和RAS管理功能特性的完整RAS軟硬件方案,并在應(yīng)用層上對X86和ARM服務(wù)器的RAS方案做了兼容適配:RAS處理機(jī)制遵循Firmware First準(zhǔn)則;通過RISC-V協(xié)議棧,支持ACPI的APEI規(guī)范,獲得面向OS的錯(cuò)誤信息格式兼容。進(jìn)迭時(shí)空的RAS方案完全遵循RISC-V RERI(RAS ErrorRecordRegisterInterface)故障處理接口規(guī)范,通過內(nèi)存映射的寄存器接口統(tǒng)一了各種RAS信息的記錄和上報(bào)。
進(jìn)迭時(shí)空RAS組件架構(gòu)
進(jìn)迭時(shí)空服務(wù)器CPU芯片的RAS硬件方案主要圍繞SpacemiTX100Core、DDR控制器、PCIe控制器、片上互連總線等幾個(gè)核心部件展開。

(圖2:進(jìn)迭時(shí)空RAS組件架構(gòu))
SpacemiT X100 Core 和 Cluster
- 實(shí)現(xiàn)L1/L2 Cache的Parity校驗(yàn)和ECC,TLB 的Parity校驗(yàn),對于Parity錯(cuò)誤和ECC不可糾正錯(cuò)誤會進(jìn)行Cachelineinvalid并Reload,對于ECC可糾正錯(cuò)誤會進(jìn)行數(shù)據(jù)回刷 (Scrubbing);
- 實(shí)現(xiàn)系統(tǒng)總線數(shù)據(jù)的Data check和Data poison檢測,在Core讀取Cache line時(shí)若檢測到數(shù)據(jù)錯(cuò)誤則觸發(fā)異常中斷;
- 集成Core Boot MBIST,在啟動中測試CPU內(nèi)部的所有RAM單元,若MBIST failed則通知系統(tǒng)啟動固件對Core進(jìn)行隔離;
- 集成RISC-V規(guī)范RAS RERI接口模塊;
- 支持Warm Reset,允許在保留RAS錯(cuò)誤信息的同時(shí)重啟CPU核。
DDR控制器
- 實(shí)現(xiàn)控制器端系統(tǒng)總線數(shù)據(jù)的Data check和Data poison;
- 實(shí)現(xiàn)控制器內(nèi)部RAM的Parity校驗(yàn);
- 通過ECC機(jī)制實(shí)現(xiàn)對DRAM的命令式和自動式巡檢回刷 (Scrubbing);
- 對DRAM讀寫數(shù)據(jù)進(jìn)行CRC校驗(yàn),若有錯(cuò)誤自動Retry;
- 支持DDR5的EAPAR(Encoded Address Parity)機(jī)制;
- 支持72-bit和80-bit的DDR5 ECC DIMM,可以實(shí)現(xiàn)內(nèi)存顆粒Chipkill功能;
- 支持對DRAM顆粒的PPR(Post Package Repair)修復(fù)功能。
PCIe控制器
實(shí)現(xiàn)控制器端系統(tǒng)總線數(shù)據(jù)的Data check和Data poison;
實(shí)現(xiàn)控制器內(nèi)部RAM的Parity校驗(yàn);
支持傳輸層的ECRC校驗(yàn);
支持鏈接層的LCRC校驗(yàn);
在Lane training failed時(shí),可以進(jìn)行Lane isolation;
支持PCIe設(shè)備熱插拔。
片上互連總線
實(shí)現(xiàn)所有總線數(shù)據(jù)的Data check和Data poison;
實(shí)現(xiàn)互連總線的錯(cuò)誤Response傳遞;
支持SLC和SF的RAMECC;
支持片間互連總線接口的ECRC和LCRC校驗(yàn)。
進(jìn)迭時(shí)空RAS管理架構(gòu)

(圖3:進(jìn)迭時(shí)空RAS管理架構(gòu))
服務(wù)器CPU芯片對RAS信息的處理主要通過SpacemiT X100 Core 主CPU單元和RMU管理單元實(shí)現(xiàn),兩者協(xié)同分工,實(shí)現(xiàn)了對本芯片中所有重要系統(tǒng)組件和多芯互連系統(tǒng)中其他芯片的RAS處理(如OS交互、BIOS固件執(zhí)行、帶外BMC通信等),極大提升了RAS處理的可靠性,它的管理架構(gòu)特性主要有:
SpacemiT X100 Core 支持RAS中斷接口,通過Cluster內(nèi)部RERI模塊,實(shí)現(xiàn)符合RISC-V RERI規(guī)范的CPU核故障記錄和異常中斷;
PCIe支持符合規(guī)范的AER(Advanced Error Reporting);
通過CPU芯片的管理單元(RMU),實(shí)現(xiàn)整芯片RAS錯(cuò)誤故障的異常處理:故障信息收集和存儲、故障的軟件通知和處理;
通過CPU芯片的帶外接口,實(shí)現(xiàn)BMC芯片的帶外RAS故障收集和交互。
進(jìn)迭時(shí)空通過由RAS功能組件和RAS管理軟硬件架構(gòu)協(xié)同組建的RAS系統(tǒng),實(shí)現(xiàn)完整的RISC-V架構(gòu)服務(wù)器RAS解決方案,即將推出業(yè)界首個(gè)完整支持服務(wù)器RAS的CPU產(chǎn)品。
文字:博志、風(fēng)行、Stephen、hw、Zetalog審核:Sophie
-
cpu
+關(guān)注
關(guān)注
68文章
11062瀏覽量
216453 -
RISC-V
+關(guān)注
關(guān)注
46文章
2525瀏覽量
48495
發(fā)布評論請先 登錄
RISC-V 生態(tài)架構(gòu)淺析
為什么選擇RISC-V?
科普RISC-V生態(tài)架構(gòu)(認(rèn)識RISC-V)
瑞薩基于RISC-V核心架構(gòu)的預(yù)編程ASSP器件
ARM與RISC-V架構(gòu)的區(qū)別是什么?
RISC-V 生態(tài)架構(gòu)淺析
RISC-V架構(gòu)簡介
RISC-V架構(gòu)
談一談RISC-V架構(gòu)的優(yōu)勢和特點(diǎn)
兩大架構(gòu)RISC-V 和 ARM 的各種關(guān)系
基于RISC-V開放架構(gòu)的存算一體化芯片解決方案

RISC-V推動下的CPU架構(gòu)變局
RISC-V的 CPU 驗(yàn)證挑戰(zhàn)

Imagination CPU 系列研討會 | RISC-V 平臺的性能分析和調(diào)試

評論