※ 引述《rgx (teddybear)》之銘言:
: http://www.appledaily.com.tw/appledaily/article/headline/20130426/34978521/
: 【連線報導】有夠扯!台灣高鐵昨因台中站號誌電子聯鎖系統零件故障,全
: 線列車停擺4小時,旅客行程大受延誤,民眾痛罵「高鐵應變能力不及格」,
: 有立委被迫從高雄搭機到澎湖馬公、再轉飛台北開會;總計全台約3.5萬人受
: 影響。不過這起高鐵通車6年來、首次非天災引起的4小時大停擺,最後竟是
: 將系統關機後重新開機、只要幾分鐘就可解決,令人傻眼。行政院長江宜樺
: 撂重話:「如查明涉人為疏失,將進行懲處。」
一台電腦重新開機的時間要多久?恩,搭配SSD和輕巧的作業系統,
可能1分鐘之內(甚至在30秒以內)可以搞定。
但是一套完整的系統要重新啟動,就不是那麼簡單的事情了。
大家可以想見高鐵的軌道營運系統是由多個子系統來整合的,
每一個子系統控制或掌控不同的設備,每個子系統有多個伺服器和資料庫。
更重要的是,高鐵的子系統之中可能還具備不同的備援系統,
子系統和最後的整合控制單元會去選擇是不是由備援系統啟動運作,
因此就算主系統故障,備援系統應該還是有能力進行作業,
然而,主系統和備援系統的連接在這個時候就會成為關鍵,
如果備援系統沒有辦法完全地在第一時間連接其他的主系統,
讓備援系統與其他的子系統成為一體往前走,那最後才會選擇全系統重啟....
所以這絕對不是幾分鐘的問題,而是系統重啟範圍到底要多大?
我以台灣某一個還算是重要的控制系統為舉例,
系統上面只有主系統和主資料庫有異地備援的機制,
異地備援的中樞和主系統之間使用光纖連接、兩者相距大約10KM。
其他的子系統伺服器大約有40台,都串接在某一個網域裡面。
某一次主系統故障時,我們透過遙控方式啟動次系統,
從發現故障(主系統尚未關機,只是系統拼命出現錯誤訊息、無法正常運作),
到工程師嘗試使用手動方式排除故障,到最後決定使用備援系統,
中間就花掉超過1小時的時間....
高鐵的系統絕對比我們這一套控制系統來得更為複雜,
重啟系統不僅是最後的手段、也是最消極的手段。
因為你只是知道重啟可能可以解決問題,
但是重啟之後還要花多少時間系統會冒出相同問題呢?
更慘的情況是,重啟之後、但是尚未排除錯誤情形的系統其實是不定時炸彈,
你不知道系統甚麼時候會壞掉,只知道系統有可能壞掉、系統可能壞掉會很嚴重,
但是往往系統一重新啟動之後,又看似甚麼事都沒發生過.....
--
這也是為什麼程式工程師喜歡在伺服器上放乖乖,有時真的很不乖阿...XDDD
--
fabg's 航空‧鐵道‧交通生活部落格
http://fabg.pixnet.net/blog (fabg@運輸邦)
--
※ 發信站: 批踢踢實業坊(ptt.cc)
◆ From: 140.113.12.137
推文 (44)
推
Bilthe
:推一下 大型系統的整個架構真的不是那麼好處理
04/26 13:46
推
Astronomy
:就跟飛機上面AVIONICS一樣,你不知道它是不是假訊號
04/26 13:56
→
Astronomy
:但是遇到問題不處理又不行...
04/26 13:56
推
Tamama56
:推在伺服器上放乖乖
04/26 13:58
推
kshieh
:我猜這次工程師應該是買到草莓口味(紅色)的乖乖了...
04/26 13:59
→
ecpoem
:記得要放椰子的,而且不能過期 XD
04/26 14:08
推
Akulamaru
:不是放五香的?
04/26 14:20
→
Akulamaru
:喔好吧我記錯了XD
04/26 14:21
→
Akulamaru
:話說新聞有說到過了九點後決定重新開機
04/26 14:30
→
Akulamaru
:十點半發出第一班車,推測重開機大概要1~1.5小時?
04/26 14:31
→
Akulamaru
:雖然新聞寫的是幾分鐘後就好了XD
04/26 14:32
推
kudo070125
:重啟真的是下下策 誰知重啟之後一定正常?
04/26 14:34
推
a27281591
:但是最沒有辦法的辦法就是重開機
04/26 14:35
→
kudo070125
:所以說就是最沒有辦法啊
04/26 14:40
→
fabg
:比較怕的其實是要跟列車溝通的系統要重新啟動...
04/26 14:41
→
fabg
:那個東西牽涉很多通訊因素,有時要等超久的....
04/26 14:41
推
s9577545
:我曾經把PC重啟之後,VGA就陣亡了...
04/26 14:44
推
katy50306
:快投報紙吧XD 救多少人算多少人
04/26 14:49
→
fabg
:最好的辦法是讓他淡化,投報紙只是更延伸議題而已...
04/26 15:27
推
IanLi
:推最後一句
04/26 15:59
→
IanLi
:很多大型系統有些資源是相依的
04/26 16:00
→
IanLi
:不是全部同時重開就好
04/26 16:00
→
IanLi
:此外強制重開機可能有資料不一致問題又要重建
04/26 16:01
→
IanLi
:說的簡單 一堆人電腦當機就死在那了啊
04/26 16:01
推
seibu
:所以 高鐵這麼做是錯誤的選擇嗎?
04/26 16:52
→
hicker
:應該說是不得不的下下策的最終唯一選擇吧
04/26 16:55
→
kudo070125
:就營運結果論來說是正確的 就維修結果論來說就難說了
04/26 16:57
推
now5978
:多故障幾次 台灣人民也會說是陳水扁害的
04/26 18:23
→
now5978
:誰叫他要蓋高鐵 不蓋就不會這樣
04/26 18:23
推
soem
:基本上重開機甚麼事情都解決不了,你永遠不知道你多快會遇到
04/26 18:27
→
soem
:同樣的問題;除非打從一開始就不想管了...
04/26 18:27
→
MeowDeLay
:鬧萬系列連這種文也要來亂是甚麼心態?
04/26 19:00
→
kudo070125
:無視無視
04/26 19:04
→
purpleboy01
:xxxx好吵
04/26 20:49
推
AndreYangMan
:xxxx好吵
04/26 21:10
推
MOTCT
:照新聞的說法,「直到9時許,維修人員決定關機後重新開機,
04/26 21:26
→
MOTCT
:幾分鐘後系統即恢復正常。巡軌後上午10時30分恢復全線雙線運
04/26 21:27
→
MOTCT
:轉。」重置時間似乎沒有想像中那麼久?
04/26 21:28
推
lexar
:大家有看過侏儸紀公園第1集吧,大型系統重啟應該會那麼複雜
04/26 21:43
推
trtc
:而且要放椰子口味的 放五香的會被學長敲頭....
04/27 17:50
推
osmptt
:結果推文重點都是乖乖 XD
04/28 08:26
推
frankc
:有時候,重開以後開不起來更慘 XD
04/28 10:06
推
starker
:放到快過期的也會被念...
04/29 00:49
→
makokatase
:那最後還是重啟系統就解決了,那麼現在的高鐵不安全囉
05/05 19:44