租用幫助
現(xiàn)如今許多香港服務器用戶都樂于構建RAID作為自己備份手段。然而RAID磁盤陣列真的是100%的安全嗎?
RAID設計的初衷大約有3個原因:解決容量問題、解決IO性能問題與解決存儲安全(冗余)問題。從數(shù)據(jù)恢復的角度看,我們暫不討論容量與IO性能方面,僅討論存儲安全。
RAID中可以起到存儲安全的組織方案常見的為RAID1、RAID5及其變形,基本設計思路是相似的,都是能過一定的算法,用多塊硬盤之間的算法維護來保證當部分數(shù)據(jù)異常時,可通過特定算法還原出來。拿RAID5的設計方式來看,舉個簡單的例子說明一下,如果我們要記錄兩個數(shù)字,那么可以通過再多記錄他們的和來達到記錄的冗余性,就像我們記錄3和5,同時再記錄一下8(為3+5的和),那么如果我們不記得到底是幾和5,只需要用8-5就可以算出這個丟失的數(shù)字了,其余情況依此。在磁盤陣列里同樣是以某種算法來達到保全數(shù)據(jù)的目的,當一組3塊盤的RAID5正常工作時,所有寫入RAID里的數(shù)據(jù)都正確地寫到特定磁盤地址,同時再生成一個特定的計算值(通常稱為校驗和),這個時候的讀寫效率是最好的。但當其中一塊盤出現(xiàn)故障時,存儲在這塊故障盤上的原有數(shù)據(jù)就要通過其他硬盤的數(shù)據(jù)恢復出來,當然這個過程中控制器(硬RAID為RAID卡,軟RAID實際上是個驅動)會負責這個工作,同時為了保證不宕機,控制器也會保證存儲的正常化,不會讓操作系統(tǒng)認為硬盤系統(tǒng)出了問題。更多可以關注香港服務器raid硬盤故障導致數(shù)據(jù)丟失的數(shù)據(jù)恢復成功案例。
轉入正題,RAID通常出現(xiàn)的故障可能性有:
1、處于降級狀態(tài)時,未及時rebuild:RAID是通過多出來的部分存儲空間來提供算法上的數(shù)據(jù)安全冗余的,但當某些盤出現(xiàn)故障下線后,RAID便不能再提供這種存儲冗余,如果管理員不及時更換盤,REBUILD整個卷,這時候其余工作中的硬盤再出現(xiàn)故障,RAID卷便無法正常工作了。這類故障在RAID數(shù)據(jù)恢復中比例相當高,服務器維護管理跟不上很容易發(fā)生。
2、控制器故障:控制器是連接物理硬盤與操作系統(tǒng)之間的數(shù)據(jù)存儲紐帶,同時因RAID的組成方式并非自然約定(特定),硬盤容量的大小,硬盤數(shù)量的多少,RAID組成級別,邏輯磁盤分割方式,塊大小,校驗方式等因素組合成不同的RAID信息(RAID元數(shù)據(jù)),這些RAID信息有時候會寫在陣列卡上,有時候會寫在硬盤上,還有的時候兩者皆有。如果控制器出現(xiàn)故障,很多情況下更換新的控制器并不能RAID信息還原,中低端的控制器出于成本考慮,這方面漏洞更會大得多。同時即使記得住原先的RAID結構,再次重建也都是錯誤的數(shù)據(jù)恢復方法(見相關文章)。
3、固件算法缺陷:RAID的創(chuàng)建、重建、降級、保護等工作在控制器的實現(xiàn)上是非常復雜的算法,當然這里面的復雜更多地是提供盡可能萬無一失的無漏洞算法,盡管廠商不會輕易承認控制器的BUG,但毫無疑問,這些問題在任何一款控制器上都無法避免。因為固件算法上BUG,可能會產(chǎn)生很多無法解釋的故障。比如在部分服務器數(shù)據(jù)恢復案例中,有一些早期生產(chǎn)的DELL 2950服務器,會有RAID一塊盤OFFLINE后故障盤與報警燈不一致的情況,導致客戶在更換故障盤REBUILD時拔錯盤,整個RAID組崩潰。
遇到這些問題的時候我們應該怎么辦,這些問題很大程度上都是由于設備老化和人為因素導致,因此在租用香港服務器的時候需要注意選擇可靠的數(shù)據(jù)中心,并且結合自身的實際情況,構建整體存儲安全方案來解決。
互聯(lián)數(shù)據(jù)HKT4提供香港服務器租用限時首月半價享,全Tier4認證硬件設備,支持全新raid硬件設備,歡迎用戶聯(lián)系24小時在線工程師咨詢。