行業(yè)資訊
在國(guó)慶節(jié)期間,經(jīng)歷過(guò)10月4日近6個(gè)小時(shí)的宕機(jī)之后,美國(guó)社交媒體巨頭臉書(shū)及其旗下的Instagram、Whatsapp等平臺(tái)當(dāng)?shù)貢r(shí)間8日再次崩潰。Facebook的故障使得數(shù)十億用戶無(wú)法對(duì)這些應(yīng)用程序進(jìn)行訪問(wèn),也導(dǎo)致競(jìng)爭(zhēng)對(duì)手的社交媒體和消息應(yīng)用程序的使用激增。
臉書(shū)服務(wù)器購(gòu)買(mǎi):http://www.9358l.com/
報(bào)道援引網(wǎng)站監(jiān)測(cè)組織Downdetector稱(chēng),全球各地的上述社媒平臺(tái)8日遭遇了“神秘崩潰”。臉書(shū)公司則在當(dāng)天搬出了和4天前長(zhǎng)時(shí)間宕機(jī)后同樣的道歉聲明。聲明稱(chēng):“我們已得知一些人在登陸我們的應(yīng)用軟件和產(chǎn)品時(shí)遇到了困難。我們正在努力讓情況盡快回到正軌,我們?yōu)樵斐傻牟槐愕狼浮!?
據(jù)此前報(bào)道,美東時(shí)間4日中午前后,上述三家平臺(tái)均出現(xiàn)宕機(jī),網(wǎng)站監(jiān)測(cè)組織Downdetector稱(chēng),這是其見(jiàn)過(guò)的最大規(guī)模此類(lèi)故障,全球出現(xiàn)1060萬(wàn)份問(wèn)題報(bào)告。RT稱(chēng),此次宕機(jī)帶來(lái)的公司股價(jià)下跌讓臉書(shū)創(chuàng)始人扎克伯格損失了超過(guò)6億美元。
服務(wù)器宕機(jī)有什么危害?
云服務(wù)器宕機(jī)1分鐘,對(duì)于云服務(wù)提供商來(lái)說(shuō)是一次運(yùn)維故障,但對(duì)企業(yè)而言,或許意味著客戶的流失甚至破產(chǎn),特別是不可逆的故障不是云服務(wù)提供商賠償就能挽回的。有業(yè)內(nèi)專(zhuān)家透露,宕機(jī)的后果可以分為兩類(lèi),一種是可恢復(fù)的,一種是不可恢復(fù)的。
服務(wù)器宕機(jī),除了無(wú)法提供服務(wù)外,還有一個(gè)非常嚴(yán)重問(wèn)題是可能導(dǎo)致數(shù)據(jù)丟失。那么我們?nèi)绾螒?yīng)對(duì)呢?
未來(lái),云服務(wù)的可靠性和業(yè)務(wù)連續(xù)性將會(huì)隨著企業(yè)上云以及垂直行業(yè)對(duì)云服務(wù)的依賴(lài)程度越來(lái)越高而不斷提升。當(dāng)然這樣的提升需要更多經(jīng)驗(yàn)的積累和時(shí)間的考驗(yàn),眼下還是應(yīng)該盡量避免宕機(jī)事件的發(fā)生。
如何減少服務(wù)器宕機(jī)帶來(lái)的危害?
1、采取多云方式,服務(wù)同時(shí)掛載在多個(gè)云服務(wù)商,當(dāng)某個(gè)服務(wù)商出現(xiàn)問(wèn)題后,可以馬上切換到正常線路。
“多云”部署或成為新的保障,諸多宕機(jī)事件告訴我們,不論是公有云還是私有云,面對(duì)天災(zāi)人禍,都不能獨(dú)善其身。為減少業(yè)務(wù)中斷帶來(lái)的損失,云服務(wù)廠商需要構(gòu)建云容災(zāi)方案。
2、容災(zāi)備份,容災(zāi)備份是應(yīng)對(duì)服務(wù)器數(shù)據(jù)保護(hù)的常見(jiàn)方案,但目前仍舊有很多企業(yè)未開(kāi)啟此功能。小編建議,應(yīng)該依據(jù)業(yè)務(wù)需求和成本考慮,建立自己的容災(zāi)備份系統(tǒng),來(lái)保全數(shù)據(jù)。
3、是云廠商技術(shù)上的完善,即增強(qiáng)云服務(wù)的可靠性和業(yè)務(wù)連續(xù)性,但毋庸置疑的是無(wú)論可靠性達(dá)到幾個(gè)9都無(wú)法保證云服務(wù)“永不宕機(jī)”。
4、是企業(yè)需根據(jù)自身特點(diǎn)選擇云災(zāi)備和云保險(xiǎn)服務(wù),盡量在經(jīng)濟(jì)和人員條件可行的情況下使用這些分散風(fēng)險(xiǎn),如果故障只出現(xiàn)在一個(gè)服務(wù)器集群,如果采用異地災(zāi)備的方案,就可以在最快時(shí)間切換到另一個(gè)集群下,保持系統(tǒng)可用;云保險(xiǎn)則是企業(yè)的最后一道保障。
5、是增強(qiáng)用云規(guī)范意識(shí),為避免由于人員的誤操作或者相關(guān)人員操作不規(guī)范造成的宕機(jī)事故,相關(guān)企業(yè)和政府機(jī)構(gòu)應(yīng)加強(qiáng)技術(shù)人員的培訓(xùn)和災(zāi)備意識(shí)的建立,企業(yè)的IT人員日常應(yīng)做到異機(jī)備份、數(shù)據(jù)容災(zāi)、業(yè)務(wù)雙活、定期對(duì)災(zāi)備和雙活進(jìn)行演練等,盡可能避免云故障帶來(lái)的損失。
宕機(jī)事件的發(fā)生使不少企業(yè)對(duì)云服務(wù)的部署方式產(chǎn)生了質(zhì)疑,“多云”部署本身也是一種災(zāi)備預(yù)案,如果自身服務(wù)非常重要,可以考慮租用多個(gè)云服務(wù)互為主備,或者自建機(jī)房,只是這樣成本和技術(shù)復(fù)雜度會(huì)成倍增加。
對(duì)于初創(chuàng)企業(yè)或中小企業(yè)而言,自建機(jī)房的運(yùn)維難度很大,運(yùn)維水平也遠(yuǎn)低于大的云服務(wù)廠商,因而故障概率更大、損失更加不可控。所以采用多云或混合云可能是未來(lái)最為靠譜的方案,純公有云、純私有云都是不太安全的解決方案。
而有實(shí)力的企業(yè)應(yīng)該盡可能自建服務(wù)器,將核心數(shù)據(jù)、核心業(yè)務(wù)邏輯放在自己的內(nèi)網(wǎng)服務(wù)器上,前端模塊等可以考慮放在公有云服務(wù)器上,這樣的話可以最大限度地實(shí)現(xiàn)分離,保障企業(yè)的用云安全。
當(dāng)然,期望云應(yīng)用能夠“永不宕機(jī)”是不合理的。此外,你所設(shè)定的可靠性和特定目標(biāo)可能會(huì)讓你花費(fèi)很多。當(dāng)構(gòu)建你的業(yè)務(wù)案例時(shí),請(qǐng)記得考慮可靠性成本,或者你可能會(huì)發(fā)現(xiàn)你的應(yīng)用程序必須在可靠性和成本之間作出某種妥協(xié)。