從緊急應變處理(ER)、危機管理(CM)、到企業永續管理(BCM)談IT治理的策略

營運持續管理(BCM)的要件

(一)  管理當局的支持Governance

本文的開頭就已提及,不論是政府或企業組織,皆有其主要經營目標,就公司治理角度,為使其營運作業持續有效,任何政策和作業規範以及內部管理制度,若沒有高階管理階層的支持和參與推動,是不會成功的,最經常看到委派低層級的員工負責整體規劃及推動的現象,高階主管不太重視,參與的意願不高,導致BCM的作業形同虛設,對意外災害發生時,完全沒有因應的能力;請特別注意,營運持續管理(BCM)是企業風險管理作業中最重要的一環,組織內各部門高階主管必須清楚地向底下的員工正確傳達BCM的價值及其重要性,如何遵循政策與配合執行策略,而緊急事件管理程序必須確保組織在意外災難事故發生期間,緊急應變(ER) 、危機管理(CM)及營運持續管理(BCM)能夠一同整合運作,因此,緊急災害應變中心的設立,建立各營運單位BCM作業程序、配合BCM運作編列適當的預算、不定期宣導說明BCM的價值及其重要性、一同參加營運持續(BC)演練及教育訓練活動,都是展現管理當局對BCM支持的決心。

(二)  風險評鑑及風險影響減緩

每個營運單位或區域管理中心皆應針對所負責業務特性與其所在地區,進行營運持續風險評估,RM Methodology

  • 建立組織外部環境背景體系 包括組織功能的財務層面、操作層面、競爭層面、政治層面(大眾的理解/印象)、社會層面、顧客層面、文化層面及法律層面。
  • 建立組織內部環境背景體系了解組織本身之優勢、劣勢與所具備的能力,以及組織執行風險管理的目標與策略。

主要目的是要判定在特定營業處所發生各種意外災害事件造成營運中斷風險的可能性(Likelihood),例如有些地區經常發生地震、洪水、颱風,容易產生重大災難,或者是化學工廠、營建工程,經常發生工安或環境汚染問題,群眾抗爭等,往往使得組織營運作業被迫停止;如何辨識可能造成組織停止營運的風險,可以從過去的歷史資料,政府和產業的統計資料分析,以及參考專業人士的意見等,GTAG有列出幾項常見造成營運中斷風險的事件:

天然災害 地震、洪水、颱風.. 生產與製造風險 l 電源供應中斷l 原物料供應中斷l 生產設備故障l 汚水處理場或廢棄物清理設備停止運作l 產品儲存、轉運、發送停止作業l 重要實驗室、測試、品質控管作業失效l 生產自動化設備電腦控制故障停止運作l 政府延遲授權及核准運作
工安 火災、爆炸、化學物溢漏..
能源及供料停止 主要原料供應商倒閉、停電
重大意外災難 飛機墜毀
醫療防疫 流行病,其他藥物風險
勞工無法工作 罷工、交通中斷、內亂
經濟及政治不穩定 恐怖活動、炸彈攻擊及戰爭
員工問題 員工出錯、犯罪、舞弊
資訊風險 駭客、電腦病毒、服務中斷攻擊

接下來需要判定受到意外災害事件發生,所造成營運中斷的影響後果(Consequence),擴散範圍有多大?回復正常運作時間要多久?員工需要多久時間才能恢復正常工作?正常營運作業與辦公處所能恢復正常的比率有多少?重要資訊軟硬體、通訊網路設備能正常使用的比率?量化指標是最好衡量的基礎,如果我們所定義的風險項目,無法判別出具體的影響後果,則需要再重新辨識這項風險背景(Context)與組織營運目標的關聯性。針對所有工作處所進行營運持續風險評鑑至少應該著重在員工的健康安全、保全及潛在環境衝擊上,確保緊急應變(ER)和危機管理(CM)在良好的資源配合下成功運作執行。

發展『風險影響減緩策略』可以縮減營運作業中斷的影響範圍,它也是屬於更正性控制措施,可以改善緊急事件的應變能力,例如:

  • 對各種意外災難事件所造成的安全風險可以共同製訂參照緊急應變作業計畫。
  • 營運作業中斷可以立即採用預先訂定的標準作業程序(SOP),回復正常營運活動。
  • 主要辦公處所損壞,可讓員工遷移至異地備援中心或可在家裡進行日常業務工作。
  • 資訊系統通訊網路連線中斷,可立即採用備援計畫,重建網路通訊系統架構及恢復正常運作。
  • 電腦資料中心損壞,可立即啟動災難復原計畫,在異地備援中心回復系統正常運作。

(三)  營運衝擊分析(Business Impact Analysis, BIA)

營運衝擊分析是用來決定在意外災難事故中,需要被復原的重要營運作業有哪些?是由哪些部門負責運作?主要負責員工有哪些?相關的供應商及客戶也要被一同標定出來,再來確認會有哪些影響與衝擊發生,例如:員工健康與安全的損傷、環境汚染、顧客服務中斷、財務損失、法律或公權力的處份、和企業形象的損傷等。

依照上述評估之後,再來決定回復時間目標(RTO)與回復時點目標(RPO)

  • 回復時間目標RTO (Recovery Time Objective):
  1. 組織內主要之功能組織在經BIA辨識後所訂定之恢復最低的生產或服務水平目標所需之時間。
  2. 備援系統取代原有系統開始提供服務所需的時間。
  3. 災難發生、系統中斷服務後,一直到系統恢復運作所需的時間(可容忍的系統中斷服務時間, recovery speed)
  • 回復時點目標RPO (Recovery Point Objective):
  1. 備援系統取代原有系統開始提供服務時,在資料上所能回復到的可用時點,
  2. 災難發生前,最近一次資料備份/複製成功的資料時點(可容忍的資料損失, data loss)。
  3. 系統回復服務時,資料所能回復到的可容忍時點。

BIA需要辨別是否有其他組織單位、廠商或實體資源對重要營運作業俱有關鍵性影響,例如委外作業,而BIA作業,也需要確認這些外部組織或廠商能夠支援回復營運作業。最後,BIA的結果需要經過各管理部門主管的複核與認同,確認應負責任範圍,同意做好管理營運持續與復原的工作。

(四)  營運回復及持續策略

關於營運回復及持續策略必須透過BIA作業決定重要復原的營運作業,初期參與策略研擬小組的成員包括作業人員、主要協力廠商、及資訊系統維護人員,同時有下列幾種解決方案:

(1)       人工替代處理作業:當資訊系統短期無法重啟使用,將必須暫時以人工來替代處理作業,不過,要考量災區員工是否有能力恢復上班工作?或者要請非災區員工支援,人力需求準備的策略,必須事前規劃。

(2)       委外作業處理:有些營運作業在產業界是標準化製程或流程服務,可以委託給外部廠商或競爭者(互惠協定)處理,以降低營運中斷對業務的衝擊。

(3)       資訊系統設備災難復原作業:針對重要的營運系統進行復原工作,不過,通常要花費較昂貴的成本及時間,因此,本項作業需視可接受資訊系統中斷時間來決定,所以當意外災難事件發生開始的時候,會先以人工替代處理作業的方式進行。

(4)       替代備援廠房設備:確認有其他相同的廠房設備準備可以讓員工隨時進駐工作。

(五)  資訊系統設備災難復原

依據業務性質及仰賴資訊系統處理作業的程度,有一些核心營運作業的復原,是不需要先復原資訊系統設備,可是目前組織中,大部份核心營運作業都相當仰賴資訊系統所提供的服務,因此,資訊系統設備的災難復原計畫(Disaster Recovery Plan, DRP)在BCM作業中,扮演舉足輕重的地位,策略上,主要考量到以下幾點:

(1)       DRP文件必須詳述根據員工在BIA作業所做的決定回復作業的方向與策略,哪些重要的核心系統設備應該優先復原。

(2)       經常評估主要資訊系統設備的回復能力是否可以達到正常營運作業的標準。

(3)       經常必須整合主要資訊系統設備與資料元件的復原作業,足以支援主要營運作業。

(4)       由內部單位及外部廠商所提供資訊系統設備與服務,必須要詳述他們所提供資訊回復服務的內容與承諾。

(5)       要特別注意,一些資訊系統環境的要件,可能會在回復作業時,無法被正常使用,如大型圖案資料檔。

(6)       每個系統和電腦元件的回復策略不需要一樣,可各自獨立發展,然而,若要將這些系統元件在同一個地方或多個不同地點共同運作整合成一個系統,那網路頻寬就很重要。

(7)       災難復原計畫在設計時,資訊安全和法規遵循的標準就要先被考量進去,不能因此產生不必要的資訊安全風險。

 

關於備援計畫有以下四種型態:

(1)       熱備援計畫(Hot Recovery Plan)

  • 有備援計畫,擁有完整、設定好的硬體、軟體和各項必要的工作環境,可在極短時間內,及時啟動系統回復營運。
  • 通常回復時間從數分鐘到一天之內。

(2)       暖備援計畫(Warm Recovery Plan)

  • 有備援計畫,具備電源、空調、通信和高架地板等基礎設施,以及某部份的執行環境(某些硬體、週邊裝置),但沒有完整的設備或軟體安裝,發生災難意外事件,需要安裝系統設定參數,從備份媒體中還原資料。
  • 通常回復時間從兩天到十三天。

(3)       冷備援計畫(Cold Recovery Plan)

  • 有備援計畫,只提供緊急事件下可以繼續運作的建築空間,擁有電源、空調等基礎建設,但沒有任何電腦硬體,因此,需要重新採購,安裝系統,及從備份媒體中復原資料
  • 通常回復時間需要十四天至三十天。

(4)       沒有備援計畫(No Recovery Plan)

  • 沒有備援計畫,要被回復的資源及資料程序沒有被確定,資料備份計畫是用來預防有一天需要將資料還原。
  • 存在主要系統及營運作業無法被回復或延遲回復的風險。

(六)  認識與教育訓練

認識營運持續管理觀念及進行適當的教育訓練,對回復作業人力的安排是相當有效的,每年都應該至少舉辦一次營運持續管理教育訓練,提醒每一位負責人員瞭解BCM的觀念及實行策略與達成目標,確保每位成員熟悉自己的角色,以及緊急應變的處置方式,有關BCM教育訓練的內容,包含領導小組決策及管理溝通方式都是相當重要的。

(七)  營運持續管理作業的維護

不論政府機構或企業組織,經常投入大量人力、物力和時間,來發展營運持續計畫,但從來不維護,導致有些計畫內容與實際營運作業嚴重脫節,人員也有異動,各主要營運作業主管並不清楚BCM的要求?緊急應變的程序為何?如何進行危機管理?一旦發生意外災害事故,要怎麼進行復原計畫?BCM要達成的目標是什麼?執行策略是否因環境而需要有所改變?稽核主管的責任,就是要確認管理部門對BCM的執行,若有上述情形發生,應立即向管理部門提出檢討改正,使BCM的作業規劃持續有效。

(八)  營運持續計劃的演練

要確認BCM的作業規劃及營持續計畫有效的最好方式,就是定期演練測試,這樣才能真正夠達到持續改善的目的,而測試演練的型態包括:書面計畫審查、流程測試、紙上推演、溝通與通訊測試、資訊系統環境遵循測試、異地備援測試、和點對點測試,另外一項必須要考量到演練的頻率,這和營運作業的變更、科技技術的變更、營運持續計畫小組成員的更換、以及預見災難發生結果相關聯。

(九)  危機事件溝通

『危機處理』是指危機爆發後所採取的因應措施,著重事後的處理。而『危機管理』則是針對潛在或當前的危機,基於動支資源最少、使用時間最短、波及範圍最小、損害程度最低的理念,有組織有步驟的採取最有效、最可行、最切實的對策和行動,通過必要的危機意識、危機處理、危機控制,以達危機解除為目標。當發生意外災害事件時,不論與組織相關內外部人士,皆非常關切事件對組織的影響及後續回復的情形,尤其,是新聞媒體,往往扮演該事件的調查者與宣揚者,一旦有任何訊息提供錯誤,或立場偏頗,故意誤導社會大眾視聽,容易導致危機擴大,因此,危機事件的溝通,其實就是公共關係的溝通,它包含所有利害關係人,員工、顧客、廠商、投資人、政府、及社會大眾,

(十)  和外部單位的協同運作

營運持續管理(BCM)作業,對於許多意外災害事故的緊急處理,不可能完全由組織本身獨立進行,例如火災,就需要消防隊的支援滅火,地震導致辦公處所損毁,需要請專業的救難大隊支援,國內外有許多針對各類意外災害事故所成立緊急救難組織,他們都是可以被聯結到我們組織營運持續計畫裡面,協同運作。

結論

BCM是企業風險管理非常重要的一環,是為了保護企業降低受到重大意外災難事件導致重要核心業務停止運作的影響後果的嚴重性,稽核主管可以協助企業組織瞭解風險及建立有效的營運持續管理作業,讓各營運單位主管深刻體認BCM的重要性,同時知道應負起管理及監控有關營運中斷的風險,透過營運持續管理架構,進行風險減緩的決策與建立組織回復能力,辨別出那些重要的營運作業必須要復原,相關主要的營業循環活動才不會被中斷,這包含人力資源的評估與安排、物料資源的正常供應、營運設備的採購、回復文件的準備、資訊系統的安裝及資料的還原等,它是一項整合性的工作,並且要與緊急事件管理作業連結,所以,確保營運持續管理(BCM)作業的有效性,是營運持續能力的展現,同時,也是達成管理當局持續改善的承諾。

 參考資料來源:

  1. IIA全球科技稽核指引(GTAG)-營運持續管理(Business Continuity Management, BCM)
  2. 英國標準協會(BSI) BS 25999-2:2007 Business Continuity Management, Specification
  3. 英國標準協會(BSI) BS 25777:2008 Information and Communications Technology Continuity Management: Code of Practice.
  4. ISACA Journal Volume 2, 2011: An Introduction to ICT Continuity Based on BS25777

關於 David Chuang

CFE舞弊稽核師、資料分析與電腦稽核專家 現 任: 台北商業技術學院會計資訊系兼任講師 - 電腦審計 兆益數位股份有限公司 總經理 中華民國電腦稽核協會理事專業發展委員會主任委員 台灣舞弊防治與鑑識協會理事暨會員發展與服務委員會主任委員