又宕機(jī)了!?
粗略總結(jié)下最近的宕機(jī)事件:淘寶-挖掘機(jī),光線被挖斷;攜程-程序員誤刪;知乎-又是機(jī)房故障;以上幾家互聯(lián)網(wǎng)公司的宕機(jī)事件直接影響了用戶體驗(yàn),誰(shuí)都不想當(dāng)下一個(gè)例子。同樣的,銀行系統(tǒng)宕機(jī)事件更是非同小可。
在調(diào)研銀行系統(tǒng)安全性問(wèn)題中,發(fā)現(xiàn)了一個(gè)典型案例:西部某地方銀行去年發(fā)生過(guò)一起長(zhǎng)達(dá)37小時(shí)的系統(tǒng)宕機(jī)事故。導(dǎo)致存取款、網(wǎng)銀、ATM等銀行核心業(yè)務(wù)全部中斷;間接影響全市醫(yī)療機(jī)構(gòu)和定點(diǎn)零售藥店共700多家不能刷醫(yī)保卡結(jié)算;影響還波及政府、教育等多個(gè)領(lǐng)域。事故后果很嚴(yán)重。
讓我們來(lái)分析下該銀行的宕機(jī)原因。
有據(jù)可查的是,銀監(jiān)會(huì)發(fā)文中特意向全國(guó)通報(bào)了該事故,原來(lái)該事故起因竟是由于備份系統(tǒng)。
發(fā)文中對(duì)事故原因的具體解釋為:在季末結(jié)算業(yè)務(wù)高峰時(shí),因備份系統(tǒng)異常導(dǎo)致備份存儲(chǔ)磁盤讀寫(xiě)處理嚴(yán)重延時(shí),備份與主存儲(chǔ)數(shù)據(jù)不一致。在采取中斷數(shù)據(jù)備份錄像后,造成生產(chǎn)數(shù)據(jù)庫(kù)損壞并宕機(jī)。
文中的解釋比較言簡(jiǎn)意賅,但根據(jù)有經(jīng)驗(yàn)的技術(shù)專家分析,從該解釋中可以推測(cè)幾點(diǎn):
首先,業(yè)務(wù)高峰并沒(méi)有導(dǎo)致主存儲(chǔ)磁盤讀寫(xiě)問(wèn)題,在線業(yè)務(wù)無(wú)問(wèn)題。
其次,業(yè)務(wù)量大”導(dǎo)致備份存儲(chǔ)磁盤讀寫(xiě)處理延時(shí)”,這說(shuō)明相比主存儲(chǔ),備份存儲(chǔ)可能由于檔次過(guò)低,或者磁盤配置不合理等原因?qū)е滦阅茌^差。
關(guān)于這點(diǎn),專家分析,一般建設(shè)備份系統(tǒng)的投入要遠(yuǎn)小于在線業(yè)務(wù)系統(tǒng)的建設(shè)。而體現(xiàn)在數(shù)據(jù)中心內(nèi),就是購(gòu)買的備份磁盤陣列往往比核心存儲(chǔ)檔次要低。在磁盤的選擇上備份系統(tǒng)也大多采用可靠性次于高速SAS磁盤的大容量SATA磁盤。存儲(chǔ)檔次低,磁盤配置差導(dǎo)致備份存儲(chǔ)性能嚴(yán)重不足。
也就是說(shuō),該銀行的備份系統(tǒng)建設(shè)模式,應(yīng)該跟大多數(shù)數(shù)據(jù)中心備份系統(tǒng)有同樣的問(wèn)題,即:磁盤配置差,備份存儲(chǔ)性能低。
也可以看出,大多數(shù)企業(yè)存在著這樣的宕機(jī)隱患。那么信息安全如此重要的今天,如何解決這個(gè)問(wèn)題?
既然問(wèn)題發(fā)生在存儲(chǔ)系統(tǒng)上,那么解決問(wèn)題的辦法也蘊(yùn)藏在存儲(chǔ)系統(tǒng)之中。
小知識(shí)點(diǎn):企業(yè)級(jí)存儲(chǔ)方案,一般分為備份、容災(zāi)、雙活/多活、兩地三中心等。根據(jù)企業(yè)的業(yè)務(wù)規(guī)模和核心數(shù)據(jù)的重要程度,一般金融、稅務(wù)、電信等行業(yè)的大規(guī)模關(guān)鍵業(yè)務(wù)數(shù)據(jù)保護(hù),多采用雙活和兩地三中心方案,在業(yè)務(wù)連續(xù)性方面提供最高等級(jí)的保障。
調(diào)研了解到,基于磁盤陣列的對(duì)稱雙活技術(shù),是一種針對(duì)備份系統(tǒng)不足的最佳升級(jí)方式。
但是,原有的對(duì)稱雙活存儲(chǔ)技術(shù)主要實(shí)現(xiàn)在存儲(chǔ)的兩個(gè)控制器之間。小編采訪中了解到,宏杉科技在對(duì)稱雙活存儲(chǔ)技術(shù)上實(shí)現(xiàn)了突破:將一臺(tái)存儲(chǔ)兩個(gè)控制器之間的冗余,變?yōu)榱藘膳_(tái)存儲(chǔ)之間的冗余,而且不需要在服務(wù)器端增加任何第三方軟硬件,可以直接在兩臺(tái)存儲(chǔ)之間進(jìn)行數(shù)據(jù)同步。當(dāng)其中一臺(tái)存儲(chǔ)發(fā)生故障,另外一臺(tái)存儲(chǔ)會(huì)立即接管業(yè)務(wù)。實(shí)現(xiàn)RPO、RTO均為0的高等級(jí)數(shù)據(jù)保護(hù)。
具體而言,雙活讓備份系統(tǒng)有了五大優(yōu)勢(shì)。
概括來(lái)說(shuō),就是技術(shù)簡(jiǎn)單、高效、安全、易擴(kuò)展。目前這種對(duì)稱雙活技術(shù)從眾多數(shù)據(jù)保護(hù)技術(shù),已經(jīng)成為升級(jí)備份系統(tǒng)的最佳選擇了,宕機(jī)問(wèn)題不怕不怕了。