危機四伏的IT叢林 

  “養(yǎng)兵千日,用在一時,但在最關鍵的時刻,你們卻掉鏈子了”,面對CEO的嚴厲批評?!癈IO最痛苦的事情是什么?”我用心思考著這個問題。公司與員工在面臨IT危機時都經受了一場最大的考驗。隨之而來的是,IT危機管理成為這段時間使用最頻繁的一個詞。也是讓我作為CIO聽到最頭痛的一個詞。

  隨著技術的發(fā)展,企業(yè)運營越來越依賴于IT系統(tǒng)的穩(wěn)定運行。對于CIO來說,保障IT系統(tǒng)正常運行非常重要。IT危機有各種各樣,可分為兩大類:一是企業(yè)外部引起的危機,可能是天災也可能是人禍。比如臺灣地震和南亞海嘯影響網絡通信,暴雨臺風或911事件等等;二是企業(yè)內部因素所引起的危機,如系統(tǒng)崩潰、系統(tǒng)災難,或最簡單的掉電使數(shù)據備份失敗,還有頻繁的病毒和木馬的攻擊等。

  IT危機癥狀分析

  IT危機是指使企業(yè)在IT方面遭受嚴重損失或面臨嚴重損失威脅的突發(fā)事件。這種突發(fā)事件在很短時間內波及很廣層面,對公司正常運作產生嚴重影響。因此,我們是應該在IT危機發(fā)生之后才想到IT危機管理,還是應時刻提防IT危機的發(fā)生、并建立IT危機管理體系呢?要回答這個問題,應該先回答這樣一個問題:如何理解IT危機?

  IT危機在一般情況下都具有三個特點:(1)突發(fā)性。IT危機往往都是不期而至,令人措手不及,例如木馬病毒的攻擊。(2)威脅性。IT危機的出現(xiàn)往往威脅到公司業(yè)務運作,甚至危及企業(yè)的生存與發(fā)展,例如造成關鍵數(shù)據掉失和損壞。(3)緊迫性。當IT危機出現(xiàn)時,對危機做出的反應和處理的時間十分緊迫,任何延遲都會帶來更大的損失,一點點的失誤都會釀成軒然大波。

  因此,面對IT危機,切不可有僥幸的鴕鳥心理一樣,把頭埋在沙土里,那樣即使回避了一時的問題,卻可能為更大的IT危害播下了種子。像鴕鳥一樣的逃避態(tài)度,隨便把頭埋在沙里,殊不知自己大大的屁股正露在外面。

  IT危機預警系統(tǒng)的建立

  風云變化萬千,只有未雨綢繆的人才能坦然應對IT危機。IT危機總是突然的、出人意料地爆發(fā),這是CIO必須面對的一個重要考驗。而IT危機管理的最好辦法就是準確預見,這是成本最低、最簡便的方法。最基本的做法是建立起IT危機管理計劃, 即Crisis Management Plan(CMP),它包括明確定義IT危機管理人員的角色、職責和權限,識別IT危機類型和反應對策程序,以及確認所需的資源。另外,還需要事先制定各級計劃,比如IT緊急反應計劃、業(yè)務持續(xù)計劃、IT災難恢復計劃等。

  首先,必須建立IT危機預警系統(tǒng)。

  IT危機是不可避免的,所以必須為危機做好準備。要想在危機來臨時做到不被動,光有危機意識是不夠的,必須未雨綢繆,建立IT危機預警系統(tǒng)。及時捕捉企業(yè)危機征兆,為各種危機提供切實可行的應對措施。

  要預防IT危機,首先要將所有可能的突發(fā)IT危機事件一一列舉出來,考慮其可能發(fā)生的后果,并且估計預防所需的花費。這樣做可能很費事,但卻很必要。我們強調不能只是坐以待斃,應該在危機發(fā)生之前,做好相關的準備工作,才能從容不迫的應變。因此,對企業(yè)來說,必須列出一張IT危機評估表,詳列出可能發(fā)生的危機,并且評估它們的等級,依發(fā)生的可能性從最可能到不太可能依序排列。例如針對IT災難備份,CIO應該根據業(yè)務實際需要制定好詳細的災備計劃,備份時間間隔、備份類型,本地備份還是異地備份等。

  因此,當各種突發(fā)IT危機發(fā)生時,明確應該采取什么樣的對策,通過什么樣的程序進行有效處理,確定什么人員在什么時間做什么事,這是危機預警系統(tǒng)建立的關鍵。主要包括以下三個方面:

  (1)組建IT危機管理小組

  建立IT危機預警系統(tǒng)的一項重要工作是成立IT危機小組。只有做好組織上的準備,有備而無患,才能更好的應對IT危機的爆發(fā)。小組的主要作用在于全面清晰的對企業(yè)可能面對的各種危機進行預測,為處理危機制定有關的策略和步驟。對管理組員進行IT危機培訓,在遇到危機時,能夠全面、快速的處理危機。

  (2)確定IT危機級別

  不同的IT危機狀態(tài),有不同的處理方法。沒有事先確定IT危機級別列表,會給危機處理帶來很大的混亂和不便。企業(yè)必須先定危機級別,并制定相應的危機處理方法,只有這樣,才能在危機來臨時,做到“兵來將擋,水來土淹”。例如在可能遇到的各類危機可分為三級:一般事件,緊急事件和重大事件,并形成IT危機級別詳細列表說明。

  (3)確立IT危機處理程序和實施細則

  只有制定IT危機管理制度、流程、策略和IT災難恢復計劃,才能確保在危機洶涌而來時能夠理智冷靜,胸有成竹。這些流程在業(yè)務正常時不起作用,但是IT危機發(fā)生時會及時啟動并有效運轉,對危機的處理發(fā)揮重要作用。這樣一旦危機出現(xiàn),各部門、員工知道做什么,而不必依靠某一個關鍵人物的急中生智力挽狂瀾。在IT危機發(fā)生時,要處理的工作何其繁雜,而這一切都需要在極短時間內完成。如果事前沒有周全的計劃、能夠立即付諸實施的制度和流程、能夠立即投入角色并展開工作的人員,則可以預見在IT危機發(fā)生時反應遲緩、內外混亂將無法避免。

  其次,應該進行IT危機模擬預演。

  應根據IT危機應變計劃進行定期的摸擬預演。IT危機演習是為了評估危機預警系統(tǒng)能否有效地實施。定期的模擬訓練不僅可以提高IT危機小組的快速反應能力,強化危機管理意識,還可以檢測已擬定的危機應變計劃是否充實、可行,找出IT危機預警準備中的不足,可以及時改善。

  制定好IT危機計劃后,并不是萬事大吉,束之高閣,不經過演練的計劃無異于紙上談兵。很多企業(yè)沒有意識到這一點,企業(yè)往往花費了大量的人力和物力制定了IT危機預警系統(tǒng),以為萬事大吉了。殊不知,在IT危機狀態(tài)下這些措施并不一定有效。

  處理IT危機的方法

  雖然IT危機管理的重點是預防危機,預防危機的措施也可以做得相當周密。但是IT危機誘因復雜多變,危機仍是防不勝防。因此,IT危機管理的另一項職能就是處理已經發(fā)生的危機,把危機損失和影響減少到最低程度。

  危機爆發(fā)時的破壞力最大,因此本階段的危機管理也最重要。第一步要做的就是遏制危機,這要求危機處理在最短的時間內掌握并控制危機形勢,將損失降至最低。第二步要做的是防止危機的蔓延,把危機限定在一定的范圍之內。在日?;顒又校琁T危機就像感冒病毒一樣,種類繁多防不勝肪。那么如何進行危機管理呢?

  (1)在危機處理時,要立即調查情況、以控制事態(tài)的發(fā)展,啟動危機處理小組對IT危機的狀況做一個全面的分析:危機產生的原因是什么,內因還是外因?危機發(fā)展的狀況及趨勢如何?這些問題必須弄清楚,因為這將是采取補救措施的直接依據。在這個階段,速度是關鍵,危機不等人。在IT危機發(fā)生后最短的時間內做出反應采取相應措施,根據不同情況確定工作的優(yōu)先次序,把損失變?yōu)樽钚 ?/p>

  (2)一旦找出IT危機產生的原因,必須立刻制定相應的危機計劃和對策。危機管理計劃必須是具體的、可以操作的,不應該有任何含糊之辭。危機管理計劃應明確所涉及部門及人員的權利和責任,對人員進行有效配置,做到事事有人管,從而在危機來臨時都能夠迅速找到自已的位置。如果危機管理計劃混亂,雜亂無章,相關人員就會反應遲鈍、迷茫無助或混亂不堪。

  (3)應有輕重緩急,主次優(yōu)劣的區(qū)分。首先對IT危機管理的目標應有優(yōu)先序列,其次對一系列多種同時發(fā)生的危機也應先應先急后緩,先重后輕。

  (4)必須有IT危機管理的預算。IT危機處理必須根據自身的人力、物力、財力資源為基礎,而不能以IT危機事件的種類為依據,否則危機處理只會成為水中月,鏡中花,沒有任何現(xiàn)實意義。

  檢驗危機管理是否有效的步驟

  危機是一種潛在的危險,危機管理正如在“刀尖上的舞蹈”一樣。危機管理絕不是危機出現(xiàn)以后才開始管理,而是要在危機發(fā)生之前采取措施,做到未雨綢繆。否則危機處理不好就會產生惡劣的后果。作為CIO,就要時時檢驗和測試公司的危機管理是否有效。

  這里提供檢驗危機管理是否有效的兩個步驟:

  第一,如果在非辦公時間出現(xiàn)危機,公司有什么樣的內部溝通系統(tǒng)?例如星期天遇到危機,需要多長時間消息傳達到每一位相關責任人?

  危機處理小組的成立也是必要的準備工作,這些成員必須提供二十四小時的聯(lián)絡方式,例如電話以及e-mail,當危機發(fā)生時,自然而然形成一個通訊網 ,每個人都適時扮演適當?shù)慕巧?。這個危機處理小組必須在危機發(fā)生前就成立,因為當危機發(fā)生時 ,每個人都手忙腳亂、毫無頭緒,屆時再成立已經太晚。

  第二,針對IT危機類型,公司有什么樣的應急反應計劃?這項計劃最后一次更新是什么時候?以前有沒有預演過以確認它是否有效?它與公司其他的反應計劃能否匹配?

  典型的危機管理處理都會有一個時間表。例如當危機發(fā)生時,應該做些什么,找出真正的實情為何,決定何時要響應危機。依照危機的狀況不同,蔓延的情況也會有所差異。有些可能十二小時內可以解決,有些則需要花上幾天到數(shù)個禮拜的時間。一般來說,危機發(fā)生的頭幾天,通常是比較緊張的時候,企業(yè)必須和時間賽跑,分秒必爭。

  測試危機管理的常用方法

  過去,我們在處理正常事故時通常也會形成一些危機管理的準則和措施,但這些原則已經不能滿足今天的需要。我們現(xiàn)在需要培養(yǎng)對正常以及非正常事故進行綜合思考的能力,這里提供幾種常用的測試方法。

  (1)危機轉盤

  預防非正常事故的方法有好多種,其中隨機地思考這類事故就是一個好的方法,隨機思考的工具之一就是危機轉盤。危機轉盤是像小孩子游戲中用到的那種帶箭頭的轉盤,在轉盤上列出公司可能面臨的所有危機的種類。這個方法很有效,因為CIO都習慣做常見的危機規(guī)劃,而精心策劃的隨機選擇方法可以轉移他們的參照點,逼迫CIO跳出自己的思維定勢。

 ?、儆蒊T團隊成員輪流轉動轉盤。轉盤停止時,根據箭頭所指的IT危機種類,討論大家能想到的所有正常的和非正常的危機。任何一種可能性都不能排除,不管這種想法看上去是多么可笑,因為每一種想法都可能顛覆CIO對自己已知情況的根本觀念,改變大家對公司可能面對哪些危機的想法。

  ②然后,把兩個或兩個以上的非正常危機組合在一起。當然,這種情況在現(xiàn)實中發(fā)生的可能性就更小了。但是一旦發(fā)生,危險系數(shù)就更大。這迫使大家接受這樣的事實,即:非正常災難經常是大規(guī)模發(fā)生的。這也幫助CIO聯(lián)想起一些新的危機,這些危機大家以前從未想到可能會發(fā)生在自己的公司或行業(yè)中。

  (2)扮演內鬼

  進行危機預防工作時,許多公司依賴自己的員工來研究應該預防的危機,因為員工最了解公司的情況。然而,由于員工非常了解公司的情況,考慮就會常常受限于習慣。因此大家并不能有效的從反面思考問題,或者說像壞人那樣思考。一些特殊的方法能幫助CIO做到這一點,角色扮演就是其中之一。

  在進行訓練時,CIO和IT成員組成測試小組,把自己想象成“內鬼”或恐怖分子。這樣,大家就能暫時拋開習慣的理性思考方式和道德標準,利用自己對公司產品、流程和制度的熟悉,想出從內部或外部破壞公司的方法。當大家采用“恐怖分子”的視角時,往往上爬能指出哪些地方能制造最大的破壞,和如何制造這樣的破壞。這種方法經??梢愿淖児緦T危機的態(tài)度。

  (3)間諜游戲

  還有一種更極端的測試方法,例如大膽地邀請外人測試公司對危機處理的脆弱性。我們認為員工太了解公司,或者身陷公司的日常運營中,因此不能采用完全不同的角度來看問題。創(chuàng)造性地利用無偏見的專家,能幫助公司打破思維慣性,不再用否定的觀點看待危機,認為“這不可能在我們公司發(fā)生”。

  這種戲劇性的緊張練習能幫助CIO接受現(xiàn)實,認識到可能某一天也要處理此類危機。罪犯的心態(tài)與大多數(shù)人完全不同,在很多情況下CIO只有把這種心態(tài)帶入公司,才能真正地弄清楚罪犯會如何思考問題。例如,一些曾經是黑客高手的安全顧問發(fā)現(xiàn)公司最容易被黑客侵入的領域,這些問題不是軟件或者系統(tǒng)缺陷造成的,而是員工的無心之過帶來的。此前,大多數(shù)CIO都不會認為,這些無心之過也會對網絡安全帶來威脅。

  古語云:“人無遠慮,必有近憂”。既然IT危機不可避免,只有防范危機未然中,才能扭轉IT危機于旦夕之間。危機是每個企業(yè)都不愿面對的事,但是在發(fā)生后吸收經驗,一方面可以防止類似事件再發(fā)生,另一方面也可以在處理方式上更加成熟。平時多一些IT危機意識,多制定幾套對付各種可能出現(xiàn)的IT危機之策略,危機來臨時就會鎮(zhèn)定從容得多。

責任編輯:admin