Header image  
CLUSTER TECHNOLOGY CO.,LTD
 
  回首頁 ::
   
 
二期航廈電腦當機事件

  前天看到新聞,報導這次二期航廈的電腦當機事件,歷時36小時修復,有很多感觸.
  還記得二期航廈剛蓋好的時候,建置好的sun主機系統,當初有綁了solaris的教育 訓練課程,而我剛好被老闆叫去支援當講師.因為沒有經常出國,所以寥寥可數的幾次飛航入出境的經驗,導致航廈給我的感覺,算得上是有點兒緊張的環境.但當進入空無一人的二期航廈時卻也特別感到新奇.去了幾次之後也就駕輕就熟了. 經過這麼多年,雖然記憶已經有些模糊,但卻有著曾經參與過的些許的革命情愫存在.
  也許是曾經參與過,當出入境進入二期航廈時,那種與有榮焉的感覺是很高興的.
  相對的,當啟用二期航廈之初,下雨漏水的消息出現時,竟有點兒揪心,而這次的當機 事件,更讓我有點兒失落.
  在資訊業界,當了十幾年的系統工程師,本身對於SUN Microsystem的硬體架構非常的熟悉,雖然沒有參與二期航廈的系統建置,但架構上應該都大同小異.底下談談我所知道的備援系統.
  系統要做到完全避免SPF (single point failure)的產生,需要有健全的硬體 架構,才能提供永續的系統服務.(high availability, 99.99%,意思是一年只能停個1個小時)何謂避免SPF,簡單講就是備援的機制.一台電腦壞了怎麼辦,所以要有另一台電腦來備援,台電掛了沒有電怎麼辦,所以要有另外的電力來源(柴油發電機或是UPS不斷電系統),國外則還有民營電廠當備援.如果一個地方毀掉了要怎麼辦,那當然就要看另一個地方有沒有建置一樣的系統囉.網路系統也是一樣的考量.不要被單一的損壞造成整個系統服務的失效,這就是備援的精神.
  如果規劃之初就有考慮到備援機制,那造成的系統服務失效的機率就會相對的減低.而經費的多寡,也會影響系統復原的時間效率.甚至還要考量到成長性的需求.
  首先,我們規劃的重點要擺在這個系統可以提供的容量及反應速度上,這是可以馬上檢驗出來的,也是因應建置此系統的主要訴求.多少個操作終端機透過軟體應用主機而對於後端的資料庫主機,同時提出資料的需求,這個就是容量.還要考量到人機介面的方便操作性,反應時間,資料的正確性等,要達到這個訴求的目標,除了硬體的考量,軟體的設計也是非常重要.
  一直以來,我都只有負責硬體的架設,資料庫的安裝,軟體的安裝,甚少開發寫作軟體的應用.所以這篇感想文,只能以硬體的規劃為主軸,談談我的規劃經驗.
  舉例來說,選擇了sun的E10K主機,當然是考量到系統的容量及穩定度,一台昂貴的主機(幾千萬)當然有他的優異性,大型主機的優點就是模組化,CPU/MEMORY板子可以增加及更換,I/O板子也可以因應擴充插卡而切換,電源模組也可以指定以分散停電風險,這類的大型主機企圖在自己內部就達到備援的機制,也達到成長性的需求,所以可以一用就用很多年,風險性往往會出現在突發的緊急狀況,因為穩定,就忽略了系統存在的風險.比如說,歲修停機再開,哇!居然開不起來了,可能是主機唯一的ID board的電池沒電了,這個就是SUN維護工程師的夢靨. 或者是此次的二期航廈硬碟損害事件,新聞報導是三顆硬碟壞掉,這個更是誇張的大夢靨了,通常頂多壞個一個硬碟,靠RAID的機制可以回復,以往也是平安度過,但硬碟是機械性讀寫頭的轉動摩擦,整年不停的轉動,如果沒有定期全部更換的話,難保他在回復的過程中同時損壞超過RAID的保護顆數,造成資料無法回復的困境.(唉,太安逸的環境就是會出現令人意想不到的冏況Orz.)還好看新聞報導說,工程師日以繼夜地將資料搶救回來,應該給他鼓掌稱讚,因為那時的壓力之大,平常人是很難體會得到的.