服務器癱瘓數據丢失如何補救

服務器癱瘓後,我們能做哪些補救?
 
外部攻擊
 
互聯網上的外部威脅級别,特别是APT攻擊的出現頻率在最近幾年逐年上升。由于本次被攻擊的公司最近在資本市場上有所動作,收購了同行業另一家公司的部分股權,因此,不能排除外部攻擊者通過APT攻擊的方式進入内部進行破壞,制造新聞事件并影響開盤時的股價。盡管利空消息下,投資者有抛售相關股票的傾向,但可通過觀察分析近期買賣行為的方式證明并找出潛在的相關負責人。
不過,從行為上看,盡管這是一個有價值目标,為了達到造成超過6小時完全宕機的目标,需要的準備工作以及背後的技術支持并非腳本小子就可以辦得到。在短時間之内做出決定、組織攻擊并成功攻陷的可能性不高。
内部攻擊
内部攻擊是最難防範的、也是威脅級别最高的攻擊。由于内部人士有特權信息,在配合得當權限或發現相應漏洞時,很容易造成有影響力的事件。此種内部攻擊的可能性,更大來自運維團隊。
假設運維團隊有1/2的成員決定進行一次内部攻擊,則此團隊有很大的機會在短時間之内做好相應準備,首先關閉日志以及審計系統,其次破壞線上環境,再進行源代碼管理服務器,很容易便可造成幾乎不可逆的破壞。盡管動機有待商榷,但并不能排除内部攻擊的可能性。
 
運維誤操作
 
PEBKAC錯誤是常見的錯誤。盡管可能,考慮到該網站的業務量以及雇員規模,其幾乎沒有可能使用單服務器部署應用。但觀察到的錯誤狀況是幾乎所有的服務全部下線,因此,單台服務器誤操作導緻的災難是幾乎沒有可能的。
一種災難發生的可能是cascading failure。假設運維團隊在發布版本時,發布了錯誤的配置文件,盡管這種分發是在可控狀況下進行的,但因為系統在低發布率時崩潰有自愈能力,在更高百分比的發布時,由于可用系統的負載更大,導緻可用系統退出服務,最終導緻所有可用服務均退出服務,服務宣告徹底不可用。考慮到此公司業務的複雜性,并觀察到其技術棧是大部分基于西雅圖郊區某公司的技術構建的,幾乎可以肯定的是,部分中間件的支持實際上是依賴外部技術支持的。若是中間件或是第三方vendor提供的組件導緻錯誤,很可能本地團隊無法做到及時響應。事件發生時大約是太平洋時間下午9點,此時的技術支持很大可能是在印度或是澳大利亞進行的。作者的行業從業經驗表明,印度技術支持在很大程度上是無法很快解決技術問題的。若是本地團隊沒有對應對災難做出playbook,則很有可能在生産環境故障時束手無措。
 
應對措施
 
不管是攻擊或是内部故障,有好的備份以及冗餘措施,均可以使宕機時間縮短到最低。
備份問題盡管聽起來不可思議,但在實踐中,不少企業并未建立起一套檢驗過的備份系統。備份的意義在于危急時刻可以快速恢複或重建生産系統。在企業網絡中,經常出現的問題實際上是:
1、備份步驟的瑕疵導緻并未完成正确的備份過程
2、由于有限的存儲空間導緻一定時間後因存儲空間耗盡導緻的随後備份失敗
3、備份介質受損導緻無法成功恢複
傳統上,磁帶因其低造價以及高存儲密度使其成為了理想的備份介質。然而,這種傳統備份介質的幾個緻命缺點經常使其内含的數據變得不可存取:
1、丢失的磁帶索引卡片
2、磁帶介質在存儲過程中受到外界磁場影響
3、介質本身損壞
4、介質讀取過程中被讀取設備損壞
 
此外,磁帶備份介質本身一般存儲于磁帶倉庫中,從倉庫檢索出所需的備份磁帶、轉移至數據中心并重新加載數據的時間消耗通常也是客觀的。
即使有一套完善的備份系統,備份系統仍然是不能抵擋所有的意外事故的。2014年,Samsung數據中心的一場大火使其雲服務暫停服務。如果沒有異地備份,這場大火将使其本地備份的恢複變得極為困難。
 
冗餘對于突發性事件來說,盡快恢複,或者是持續的提供服務是非常重要的。本月,某知名支付公司因數據中心網絡連接性故障導緻了一段時間的服務中斷。如果有更好的冗餘方案,此種事故的影響面将會得以降低,甚至會化解為用戶不可感知的内部事故。
 
冗餘是非常常見的做法。例如,大部分服務器都有兩部獨立的PSU,任意一部PSU失效均不會影響其正常服務;一般來說,服務器的兩部PSU将連接到兩路不同的電路或不間斷電源上以避免市電失效;數據中心的電源一般同時配備UPS以及柴油發電機以避免發電公司未通知的停止供電服務導緻的服務中斷。網絡亦然;同時接入多路ISP線路,并對其進行獨立布線,同時在多路線路上宣告地址,便可使網絡服務的魯棒性更高。
 
在系統的視角上,隻有同時配置備份以及冗餘方案,才可以最大限度的提高可用性,避免非可控因素導緻的長時間服務中斷。