在考慮設(shè)計可靠性時,大部分工程師都將注意力集中在一個綜合性度量標準:平均故障間隔時間。事實上,平均故障間隔時間(MTBF)是評估設(shè)計可靠性重要參數(shù)之一。但是另一個參數(shù)“成功概率”,也同樣重要。因此為了最終推出可靠的設(shè)計方案,設(shè)計人員應該充分考慮其它因素并確保進行準確的可靠性分析。
無論您設(shè)計哪種產(chǎn)品,可靠性都是必不可少的,盡管原因不盡相同,但都取決于終端應用。航空航天與軍事設(shè)計人員必須確保操作員/乘客的安全,確保成功完成任務。在電信領(lǐng)域,實現(xiàn)可靠性的目的則是防止出現(xiàn)服務中斷的情況,因為這樣會影響收入流與聲譽。工業(yè)和流程控制工程師的任務就是盡可能縮短停機時間,在故障發(fā)生時,能夠確保安全、無故障運行。對于商業(yè)應用,設(shè)計人員必須確保其產(chǎn)品在規(guī)定的質(zhì)保期內(nèi)不會出現(xiàn)任何問題。
使用FPGA可以研發(fā)出集成度更高的解決方案,從而可以延長系統(tǒng)的平均故障間隔時間。當器件制造商定期提供季度可靠性報告時,這一點更為明顯,賽靈思就是如此做的,其出版的季度可靠性報告UG116。
從最高層次來說,可從兩個角度來考慮可靠性。第一,系統(tǒng)在規(guī)定使用壽命內(nèi)順利運行的可信度。這一點可以采用MTBF、成功概率以及熟悉的浴盆曲線。第二,發(fā)生錯誤事件時,如何確保您的設(shè)計可以繼續(xù)工作并保持無故障運行,或者針對尚未解決的問題出具報告。我們工程師開展設(shè)計與分析的方法可以影響到可靠性的上述兩個方面。
為了確保解決方案的可靠性,您的開發(fā)環(huán)境必須建立正確的工程設(shè)計治理制度,設(shè)置審查關(guān)口、設(shè)計規(guī)則與指南,同時在生命周期內(nèi),應該安排同行在適當?shù)狞c進行獨立審核。
MTBF與浴盆曲線
MTBF的定義是從統(tǒng)計學角度預測系統(tǒng)運行過程中的故障間隔時間。制造商取各個組件的故障率倒數(shù)計算MTBF。我們一般將這些故障率稱為FIT率,其中,故障時間(FIT)為1e-9小時-1。您既可向組件供應商索取故障率,亦可根據(jù)軍用手冊MIL-HDBK-217F或Bell-core/Telcordia SR332標準計算。MTBF與FIT率之間的關(guān)系如下所示:
但是,上述故障率僅對浴盆曲線中的恒定故障率周期有效,如圖1所示。
圖1 - 浴盆曲線追蹤產(chǎn)品引入時的早期(“早期故障期”)故障、使用壽命內(nèi)所出現(xiàn)的故障以及壽命結(jié)束后的“磨損”故障。
浴盆曲線描繪的是產(chǎn)品引入時的早期(“早期故障期”)故障、正常使用壽命內(nèi)發(fā)生的故障(“恒定故障率”)以及產(chǎn)品設(shè)計壽命結(jié)束時的故障。因此,生產(chǎn)過程中,通常會進行某種形式的“老化試驗”,排除早期故障期故障。老化試驗過程中,在各種溫度作用下,器件潛在缺陷會加快發(fā)生,這樣便可以確保器件在交付、裝入系統(tǒng)之前失效。
您可以通過韋伯分布、或壽命數(shù)據(jù)與分析來確定您的產(chǎn)品或系統(tǒng)在浴盆內(nèi)的位置,利用Excel很容易完成。形狀參數(shù)β表明故障率是穩(wěn)定、增加還是減少。若形狀參數(shù)(β)小于1.0,則表明早期故障期內(nèi),故障率在下降,若形狀參數(shù)大于1.0,則表明故障率在上升,而此現(xiàn)象會在磨損階段出現(xiàn)。
為了確保成功概率合格,許多產(chǎn)品都要求MTBF必須遠遠高于預期使用壽命。
確定您在浴盆曲線中的位置后,如果您認為系統(tǒng)至少在MTBF期間可以繼續(xù)無故障運行,那也是情有可原的。然而情況并非如此。MTBF是從統(tǒng)計學角度描述產(chǎn)品在使用壽命內(nèi)可能出現(xiàn)的故障率;并非指產(chǎn)品的預期使用壽命。如果想要獲得產(chǎn)品的預期使用壽命,我們需要考慮通過以下公式所求得的成功概率,其中t表示預期工作時間(單位:小時)。
將成功概率繪制成圖之后,可以看到,當預期工作時間接近MTBF時,成功概率為0.37左右,如圖2所示。這意味著成功概率這一單個模塊在MTBF達到0.37所消耗的時間之后,仍然有效。如果考慮到一批器件,則其中的37%仍然正常工作。
因此,為了確保工作壽命內(nèi)成功概率合格,許多系統(tǒng)/產(chǎn)品都要求MTBF必須遠遠高于預期使用壽命。例如,假設(shè)使用壽命為五年,成功概率為0.99,則產(chǎn)品所要求的MTBF必須達到4,361,048小時或497年,如以下公式所示。
顯而易見,這遠遠超過了使用壽命。
可靠性計算
您可以采用以下方法之一計算可靠性與MTBF——零件計數(shù)分析或零件應力分析。其中零件計數(shù)分析比較簡單,有時候可以在開發(fā)周期早期進行,作為產(chǎn)品是否達到可靠性要求的指標之一。此類分析考慮到了零件質(zhì)量水平、數(shù)量以及使用環(huán)境。零件計數(shù)分析可以快速進行。但是,結(jié)果趨向于保守,導致故障率上升,MTBF縮短。
圖2 - 當預期工作時間接近MTBF時,成功概率為0.37。
零件應力分析將會考慮到更多參數(shù),因此所需時間更長,但是此類分析的結(jié)果更加準確。應力分析需要考慮到溫度、電應力、質(zhì)量、結(jié)構(gòu)、工作環(huán)境等許多因素,具體取決于您所分析的組件種類。對于當前應用而言,此類分析所獲得的故障率要準確得多。
提高可靠性
有許多方法和技術(shù)可用于幫助延長MTBF,進而提高您系統(tǒng)或產(chǎn)品的成功概率。最常用的方法是降低組件所承受的額定電應力與熱應力。通過如此降額,在進行上述零件應力分析時,您可將器件應力考慮在內(nèi)。各個公司通常都會制定自己的降額規(guī)則。但是,如果沒有內(nèi)部規(guī)則,則您可以參考業(yè)界標準規(guī)則,例如歐洲空間局的ECSS-Q-30-11A與美國海軍的NAVSEA TE000-AB-GTP-010。
雖然零件應力分析會增加非經(jīng)常性工程成本,但是對于工程團隊而言,還有許多其它選項,這些選項均會影響到經(jīng)常性成本。
第一個選項便是提升組件質(zhì)量,同時應用類似的降額規(guī)則。這可能意味著,從標準商業(yè)零件到高質(zhì)量的軍用(通過QML Q認證的IC)乃至航空(通過QML V認證的IC)組件全面提升質(zhì)量。然而值得注意的是,隨著組件質(zhì)量水平的提升,其價格亦會隨之提升。表1顯示了集成電路、混合件以及分立件所需的各種不同標準。
表1:IC、混合件與分立件的標準版、軍用版與航空版
第二個選項便是引入冗余,無論是模塊間的還是模塊內(nèi)的。冗余可增加尺寸、重量以及解決方案的成本,但其所帶來的后果是對系統(tǒng)可靠性造成顯著影響,進而影響系統(tǒng)可用性。通常最好的做法便是在系統(tǒng)層面做出冗余決策,在系統(tǒng)中故障率較高位置安裝額外組件。此種方法是專門針對冗余而開發(fā)的最佳解決方案。
在考慮冗余時,您可以選擇熱冗余或冷冗余。對于“熱”冗余解決方案,冗余系統(tǒng)采用電動,其配置可以通過無縫切換替換失效模塊,不會對系統(tǒng)性能產(chǎn)生任何影響。缺點在于此種情況下,冗余設(shè)備會承受應力。
在“冷”冗余方案中,冗余系統(tǒng)通常不采用電動,只有在主模塊失效之后,才會重新啟動。系統(tǒng)會終止活動,直到對冗余端進行重新配置,非失效模塊才會繼續(xù)工作。雖然工作會中斷,但是優(yōu)點在于冷冗余解決方案不會老化,因為冷冗余不采用電動,不會承受電應力。
引入冗余之后,您必須注意確保故障不會擴散,因為在主模塊側(cè)失效的時候,如果故障擴散,則就會影響到冗余模塊的性能。
系統(tǒng)級考慮事項
考慮了零件質(zhì)量以及冗余對系統(tǒng)造成的重大影響之后,您還可以執(zhí)行其它選項,以確保發(fā)生錯誤或故障事件時系統(tǒng)性能正常。這些選項包括:
● 危險故障擴散模式
● 內(nèi)置測試、遙測以及事件日志,用于監(jiān)控和記錄系統(tǒng)健康狀況
● 關(guān)鍵命令順序(例如,分離系統(tǒng)“手臂”與“消防”命令)
● 內(nèi)存與數(shù)據(jù)鏈路錯誤率(BER、ECC)可接受
作為監(jiān)管或認證標準的一部分,您必須進行危險性分析,以確定設(shè)備發(fā)生故障時可能出現(xiàn)的潛在危險。因此,您需要負責確保系統(tǒng)級的設(shè)計能夠采取適當措施,通過聯(lián)鎖裝置等避免上述危險發(fā)生。如有必要,您應該將這些減緩措施作為規(guī)定要求應用到各個子系統(tǒng),以便確保這些故障模式均得到正確處理。
了解設(shè)備健康狀態(tài),然后上報或記錄,您可以通過此方式進行預測,確保運行不會受到故障的影響,確定設(shè)備故障原因,有利于對其進行維修。更多的復雜系統(tǒng)可能包括全面的自測功能,通電之后或者運行期間可以連續(xù)運行此功能。表2顯示了更加詳細的您可能考慮監(jiān)控的需求中斷測試。
表2:狀況監(jiān)控詳情表
上述結(jié)果可以通過通信鏈路以健康狀態(tài)的形式進行傳送,保存在非易失性存儲器之中,例如,flash或FRAM或二者同時使用。通常情況下,您可能會選擇采用實時時鐘或越時計數(shù)器(elapsed-time counter),對這些事件逐一標記時間,以便形成參考系。
在惡劣環(huán)境下,工程師所面臨的另一個問題是連接器。連接器是故障多發(fā)位置,因為里面的單獨電纜可能會斷開,或者連接器本身會因振動或震動等環(huán)境影響而掉落。因此,您可以通過裝入冗余連接器和電纜來增加可靠性。第一個連接器發(fā)生故障后,冗余連接器可以接管通信,如圖3所示。但是,這種冗余的代價是增加了復雜性,尤其是當您需要連接大量模塊時。一種替代方案就是采用專門針對惡劣環(huán)境設(shè)計的連接器,例如MIL-STD 38999系列連接器。
圖3 - 如果原始連接器出現(xiàn)故障的話,冗余連接器將接管工作,但代價是增加了復雜性。
圖4 - 對于電氣噪音比較大的環(huán)境,“手臂消防”順序有助于降噪。
若系統(tǒng)或產(chǎn)品將用于惡劣環(huán)境,例如,電氣噪音比較大,則系統(tǒng)內(nèi)部總線所傳送的命令考慮采用手臂/消防方案是比較明智的。在上述方案中(參見圖4),初始命令被傳送至接收器,然后接收器確認命令,并啟動超時。如果接收器無法接收消防命令,則會發(fā)出不予確認字符(NACK)命令,作為響應,接收器在啟動超時之前會發(fā)出確認字符(ACK)命令。類似的,如果接收器接收到其它命令,則其會發(fā)送NACK命令,并重新開始處理。此方案可確保,其中一個命令因電磁干擾(EMI)而被中斷時,不會無意中產(chǎn)生關(guān)鍵命令。
此外,您還可以采用與手臂消防方法相類似的方法,確保所有通信鏈路和內(nèi)存均有糾錯與檢測代碼,確??煽客ㄐ拧?shù)據(jù)得到可靠保存。至于是單獨選擇錯誤檢測代碼,還是選擇錯誤檢測與糾錯代碼,將取決于終端應用。然而,您可以使用許許多多的代碼,從非常簡單到比較復雜(表3)均可使用。保護級別隨代碼復雜程度增加而相應變化。
表3:EDAC代碼,從簡單到復雜。
所有工程師,無論其正在研究的終端應用是什么,均必須考慮到終端系統(tǒng)的可靠性。工程師可自行選擇許多方法,用于幫助實現(xiàn)高可靠性產(chǎn)品。
---> END <---
-
設(shè)備
+關(guān)注
關(guān)注
2文章
4668瀏覽量
71753 -
可靠性設(shè)計
+關(guān)注
關(guān)注
0文章
50瀏覽量
14609 -
成功率
+關(guān)注
關(guān)注
0文章
2瀏覽量
6649
發(fā)布評論請先 登錄



評論