【容錯】 FaultTolerance
【辭書名稱】教育大辭書
容錯的意思是指:當某些元件發生故障或設計錯誤時,仍能維持系統正確地繼續運作。
對於電腦系統而言,其各個組成元件均有發生故障的可能,從小而簡單的硬體邏輯線路到大型積體電路的故障,以及整個電腦結構的設計錯誤等,都有可能是整個電腦系統當機的原因。
至於電腦軟體,則更是電腦系統發生錯誤的主凶。
尤其當電腦硬體與軟體日益複雜時,發生錯誤的機率也相形提高,錯誤發生的原因和時刻,相對地也愈難以掌握。
一般而言,在大量資料運算處理或具有危險性及重要任務的應用上,容錯計算的功能,是不可或缺的。
建構一套容錯系統最常用的方法是重複法(redundancy);
例如在一電腦系統裡,同一種組成元件有好幾套,像是有兩個處理器(processor),多個週邊裝置(multipleperipheraldevices);
也可能乾脆就設置多套電腦系統。
利用這種方法的主要原理是,多重元件組合裡所有元件均故障的機率比單一元件故障的機率小。
至於如何整合相同性質的元件,常見的方式有:(1)這些相同的元件同時運作,而且每件隨時維持一致的狀態,只要有一套元件能正常地運作,那麼整個系統仍可運作;
(2)有奇數套元件同時運作,彙總這些元件運算出的結果,如有不超過半數的元件運算錯誤,那整個系統仍能正確地運作;
(3)這些相同元件間,任何時間只有一套在執行,而其他則是在待命狀態下,每運作過一段時間,則同步正執行的元件與待命元件的狀態,一旦執行元件出了問題,擇一待命元件接替,從最近一次同步過的狀態起,繼續地執行下去;
(4)同樣是多套元件執行相同的計算,但彼此卻有不同的設計;
像是所謂的N版(Nversion)的容錯軟體,當某一版程式的執行結果有錯誤,則呼叫另一版來執行,若再有差錯,則以此類推下去。
除了重複法之外,利用編碼(coding)的理論與技術,來偵測錯誤的發生並校正錯誤,是達成容錯功能的另一種方法。
轉自:http://edic.nict.gov.tw/cgi-bin/tudic/gsweb.cgi?o=ddictionary
|