服務器通常會有兩個電源插槽,兩個電源意味著更高的可靠性,UPS的介入使得服務器供電的可靠性又上了一個臺階。隨著電源可靠性的不斷提高,也有越來越多用戶開始使用單電源方案以節(jié)省成本。那到底用雙電源還是單電源呢?
電源故障引發(fā)的業(yè)務風險有哪些?
單點類業(yè)務(開發(fā)、測試和辦公平臺等):
1、業(yè)務中斷:業(yè)務無法繼續(xù)向用戶提供服務,影響用戶體驗;
2、數(shù)據(jù)恢復:掉電引發(fā)數(shù)據(jù)丟失,需要數(shù)據(jù)恢復,產(chǎn)生運維成本;
集群類業(yè)務(WEB前端、緩存、數(shù)據(jù)庫等):
掉電引發(fā)數(shù)據(jù)丟失,根據(jù)業(yè)務的不同分類可能需要數(shù)據(jù)恢復(比如緩存型業(yè)務就不需要數(shù)據(jù)恢復),有一定的運維成本發(fā)生;
分布式存儲(hadoop、分布式文件系統(tǒng)等):
存儲類業(yè)務遇到單機斷電掉線都將被作為一個節(jié)點的故障處理,因此數(shù)據(jù)恢復可能會占去大量的時間(自動化數(shù)據(jù)恢復除外);
通過數(shù)據(jù)評估兩種方案的價值:
假設服務器總數(shù)為W萬臺,單電源服務器年故障率為x%,電源僅占到所有故障總數(shù)的y%,那么電源的年故障率應該在xy/10000,一年內(nèi)電源故障次數(shù)為:Wxy。可以根據(jù)這個公式去評估一個集群一年內(nèi)的斷電次數(shù):假設一年內(nèi)允許的斷電次數(shù)為Z,那么只要讓Wxy < Z就可以達到期望目標。
當Wxy值遠大于Z時,在x、y不變的情況下,通常是因為W基數(shù)較大引起的。這個時候要滿足Wxy < Z就只能通過雙電去實現(xiàn):
雙電方案下服務器年斷電概率為:xxyy/10^8,斷電次數(shù)為:Wxxyy/10000,它是單電方案故障次數(shù)的xy/10000,足夠滿足小于Z的條件了。
總結:在使用單電方案的前提下,如果要滿足Z>Wxy,就要盡量控制整個集群的服務器規(guī)模;服務器基數(shù)較大時,為了避免基數(shù)問題帶來過多的服務器斷電,建議使用雙電方案。
如何強化單電方案的可用性:
1、插頭綁線規(guī)范化提高電源插頭穩(wěn)固性,防止服務器電源因誤碰而掉線。
2、保持良好的機房散熱條件,防止電源因為過熱而導致故障;
3、盡量選用標號更高的電源(比如白金電源、黃金電源),提高轉換效率減少諧波干擾;