從緊急應變處理(ER)、危機管理(CM)、到企業永續管理(BCM)談IT治理的策略

最近國內外所發生一連串重大的事件,從社會、政治、到國際間,有些是因為大自然的變化、氣候的變遷所產生的,而有些則是人為疏失,意外事故頻傳,而又有些是社會問題或政治鬥爭所造成無法瀰補的缺憾,這些都直接或間接對我們造成衝擊,我們能不謹慎面對嗎?危機意識要從自身安全及日常工作作起,態度是關鍵,強化課責(Accountability)的治理規範,才能夠避免風險的發生,或減緩衝擊的嚴重性,從這上一次日本 311 大地震所引發大海嘯及核安危機,到這次復興空難發生的前因後果,一再地提醒大家,居安思危的重要性,以及如何做好事前的規劃與準備,避免或儘量降低發生重大危害,我們都知道生命與財產是最寶貴的,而這也是 IIA 國際內部稽核協會所頒佈全球科技查核指引: GTAG No 10 所談的企業永續管理(BCM),要求企業或政府組織裡的稽核人員必須對組織所面對緊急事故的應變處理,有一套完整可供組織內部各成員遵循的具體作業程序;由於在協會教授這門課的關係,曾經受邀撰寫簡述 BCM 的架構,而 BCM 是「風險管理作業」的一環,我就以之前協助政府部門推動風險管理作業的實務經驗,與大家分享並說明 BCM 的執行程序與重點所在,尤其是 IT 在中間所扮演不可分割的角色。

 

海潚

政府部門成功營運的要件,在於提供人民良好的服務品質,而企業組織則會以市場佔有率及獲利能力來做為成功經營的要素;因此,多數企管顧問專家都會同意,要成功經營一家企業,經營管理階層必須投入相當多的時間做市場分析、擬訂與執行策略、建立財務與績效管理目標、發展及推動營運計畫、向董事會及投資人呈報和說明經營績效與財務狀況,而成功經營的要件,就是在面對重大意外事件如火災、洪水、地震、停電、罷工或其他災難時,組織仍有能力持續正常運作,而確保企業永續經營的方法,就是營運持續管理(Business Continuity Management, BCM)。

雖然,大家相當清楚企業風險管理的重要性,可是影響企業持續營運的危機事件,卻經常不斷地發生,例如美國 911 事件、台灣 921 大地震、八八水災、最近日本仙台大地震、海嘯及福島核災危機等,災難發生以前,不論政府部門或企業經營管理階層,時常忽略對組織持續營運的衝擊與影響,事件發生之後,才驚覺一切作業將被迫停止;目前,大部份組織製作產品及提供服務的作業流程,都非常仰賴資訊系統及通訊作業,一旦受到災難影響而停止作業,會產生策略風險、破壞組織正常運作能力、甚至損害到組織的聲譽,因此,當我們具焦在組織營運持續管理(BCM)上的時候,就不得不審慎評估電腦資訊作業中止所帶來的衝擊與影響,以及其備援機制的建立和回復能力的評估。

 

營運持續管理(BCM)的發展與觀念

 

Relationship

BCM 最早發展自1970年代,針對資訊系統設備(ICT)所發展的災難復原計畫(Disaster Recovery Plan),強調發生重大意外災害事件,如火災、洪水等,所造成建築物或辦公處所的毁損,必須立即啟動備援中心,進行電腦系統及資料與通訊設備的還原作業,而其建構的基礎是在事件發生之後,對於營運持續管理(BCM)作業比較著重在預防性,不單單是意外災害發生後,如何回復的作業,而是要在組織中建立一種文化,預防危機及後續災害不斷地發生,確保主要營運作業有迅速復原的能力,它是針對整體的營運作業,並非只針對某項資產及設備的復原,如資訊系統,若只單獨回復電腦資訊系統運作,並不代表你可以回復到正常業務工作的執行,因為許多重要的業務文件在災害中被損毁,讓你無法正常操作電腦系統處理資料,並且和客戶或廠商進行聯繫工作。

資訊科技的發展與運用,促使各政府和企業組織斷地加強E化作業,提升服務品質,增加營運效率,傳統上,營運持續計畫(Business Continuity Planning, BCP)在許多企業EM組織裡面,常由資訊部門負責規劃、管理與執行,主要是為了避免一旦發生重大意外事件,造成資訊設備及系統毁損,影響組織營運作業中斷的情形,而資訊部門會根據事前擬訂的災難復原計畫,選擇異地備援中心,定期執行備份作業,按時將備份磁帶媒體送往備援中心存放,一旦災難事件發生之後,組織就可以迅速在備援中心,重新啓動系統作業;因此,電腦資訊系統(ICT)的持續計畫是支持組織的營運持續管理(BCM)整體作業。

 

緊急事件管理程序

 

如果事前沒有做好應因準備工作,意外災害事件的發生,會影響公司營運正常作業,甚至被迫停止,稽核主管必須要能夠充份掌握這些相關風險,定期向董事會及審計委員會報告營運持續管理作業的缺失與改進方向,『全球科技稽核指引(GTAG)-營運持續管理(BCM)』的制訂,就是以稽核主管的觀點,督促管理階層重視企業組織營運持續(BC)的風險,並積極瞭解推動BCM作業所面臨的風險、控制、成本及效益所帶來的影響,最近日本仙台大地震、海嘯與福島核災危機,正好帶給公司最高管理階層重視BCM推動的成效。

稽核主管必須要瞭解 BCM 在『緊急事件管理程序(Emergency Management Program)』中所扮演的角色,『緊急事件回應(Emergency response)』是事件發生當時,第一個反應動作,著重在迴避、延遲、及預防,保護生命安全及降低財產損失是它的首要目標,通常只有短短的數分鐘到數小時以內;第二項程序是『危機管理(Crisis management)』,它是在意外災害事件發生後的期間,管理內外部溝通與高階管理人員的決策活動,許多人因為沒有充份掌握事件的發展原由,直接做出錯誤的處置決策,或提供錯誤的訊息給大眾,導致意外事件的影響範圍被擴大,最近日本福島核災就是一個典型的案例,此期間將延續數天之內,但要看事件的發展而定;即使我們的環境已經擁有健全的『緊急事件回應(Emergency response, ER)』和『危機管理(Crisis management, CM)』程序,仍需要完整適常地建置營運持續管理(Business Continuity Management, BCM)作業,它是強調重要核心營運作業的回復能力,以減低意外災難事故或中斷期間對公司營運所產生財務或其他方面的衝擊,目前有許多組織對其定義:

    • 依據BS 25999-2:2007上的定義,『營運持續管理(BCM)』是找出組織的潛在威脅以及這些威脅成真時對營運可能造成的影響,並提供一個建立組織恢復力的架構,讓組織具備保護關鍵利害關係人、商譽、品質和創造價值活動的有效因應能力之全面性管理流程。也就為防治營運活動的中斷,經由實施營運持續管理作業及營運持續計畫(BCP, Business Continuity Plan),結合預防和復原控制措施及程序,將災難和管理缺失(可能是由於自然災害、意外、設備故障和蓄意行為等引起)造成的營運中斷情形降低到可接受的等級。(資料來源:BSI網站),
    • GTAG上的定義則是,營運持續管理是組織因應未來重大意外事件可能危害到組織的核心任務及其長期生存的作業程序,這些意外災害包括地方意外災害事故如火災,區域災害事件如地震,或全國性事件如傳染病等,主要的關鍵要素包括管理者的支持、風險評鑑與減緩、營運衝擊分析、營運復原與持續策略、宣導與訓練、演練、及維護。

因此,BCM 必須與 ER 及 CM 一起整合,但是分別都有獨立的作業程序,在『全球科技稽核指引(GTAG)-營運持續管理(BCM)』中,特別提到,稽核主管必須要能夠回答以下三個有關營運持續(Business Continuity, BC)簡單的問題:

    1. 公司管理階層人員是否瞭解目前營運持續(BC)風險的程度及可能發生損失的潛在衝擊?
    2. 公司管理當局是否能證明營運持續(BC)的風險已被下降到可接的水準,並且定期檢測?
    3. 如果有存在不可接受的營運持續風險,而最高管理階層決定去承受這項風險,那公司的股東、合作伙伴、及其他關係人,是否知道公司管理當局所採行不降低風險的決定?

我們不再只是針對造成組織營運中斷的可能性與衝擊的分析,而是要有能力偵測意外事件的發生及立即做出回應,資通訊系統持續運作(ICT Continuity)的六大原則包含:防護(Protect)、偵測(Detect)、應變(Reacting)、還原(Recover)、過渡期作業(Operate)、回復至正常(Return)等,GTAG 這份指引會協助稽核主管瞭解BCM的作業程序、風險、和控制,以及如何準備相關資料提供給管理部門及董事會討論。

 

營運持續管理(BCM)的要件

(一)  管理當局的支持Governance

 

本文的開頭就已提及,不論是政府或企業組織,皆有其主要經營目標,就公司治理角度,為使其營運作業持續有效,任何政策和作業規範以及內部管理制度,若沒有高階管理階層的支持和參與推動,是不會成功的,最經常看到委派低層級的員工負責整體規劃及推動的現象,高階主管不太重視,參與的意願不高,導致 BCM 的作業形同虛設,對意外災害發生時,完全沒有因應的能力;請特別注意,營運持續管理(BCM)是企業風險管理作業中最重要的一環,組織內各部門高階主管必須清楚地向底下的員工正確傳達BCM的價值及其重要性,如何遵循政策與配合執行策略,而緊急事件管理程序必須確保組織在意外災難事故發生期間,緊急應變(ER) 、危機管理(CM)及營運持續管理(BCM)能夠一同整合運作,因此,緊急災害應變中心的設立,建立各營運單位BCM作業程序、配合 BCM 運作編列適當的預算、不定期宣導說明BCM的價值及其重要性、一同參加營運持續(BC)演練及教育訓練活動,都是展現管理當局對 BCM 支持的決心。

 

(二)  風險評鑑及風險影響減緩

 

每個營運單位或區域管理中心皆應針對所負責業務特性與其所在地區,進行營運持續風險評估,RM Methodology

    • 建立組織外部環境背景體系 包括組織功能的財務層面、操作層面、競爭層面、政治層面(大眾的理解/印象)、社會層面、顧客層面、文化層面及法律層面。
    • 建立組織內部環境背景體系了解組織本身之優勢、劣勢與所具備的能力,以及組織執行風險管理的目標與策略。

主要目的是要判定在特定營業處所發生各種意外災害事件造成營運中斷風險的可能性(Likelihood),例如有些地區經常發生地震、洪水、颱風,容易產生重大災難,或者是化學工廠、營建工程,經常發生工安或環境汚染問題,群眾抗爭等,往往使得組織營運作業被迫停止;如何辨識可能造成組織停止營運的風險,可以從過去的歷史資料,政府和產業的統計資料分析,以及參考專業人士的意見等,GTAG 有列出幾項常見造成營運中斷風險的事件:

天然災害 地震、洪水、颱風.. 生產與製造風險 l 電源供應中斷l 原物料供應中斷l 生產設備故障l 汚水處理場或廢棄物清理設備停止運作l 產品儲存、轉運、發送停止作業l 重要實驗室、測試、品質控管作業失效l 生產自動化設備電腦控制故障停止運作l 政府延遲授權及核准運作
工安 火災、爆炸、化學物溢漏..
能源及供料停止 主要原料供應商倒閉、停電
重大意外災難 飛機墜毀
醫療防疫 流行病,其他藥物風險
勞工無法工作 罷工、交通中斷、內亂
經濟及政治不穩定 恐怖活動、炸彈攻擊及戰爭
員工問題 員工出錯、犯罪、舞弊
資訊風險 駭客、電腦病毒、服務中斷攻擊

接下來需要判定受到意外災害事件發生,所造成營運中斷的影響後果(Consequence),擴散範圍有多大?回復正常運作時間要多久?員工需要多久時間才能恢復正常工作?正常營運作業與辦公處所能恢復正常的比率有多少?重要資訊軟硬體、通訊網路設備能正常使用的比率?量化指標是最好衡量的基礎,如果我們所定義的風險項目,無法判別出具體的影響後果,則需要再重新辨識這項風險背景(Context)與組織營運目標的關聯性。針對所有工作處所進行營運持續風險評鑑至少應該著重在員工的健康安全、保全及潛在環境衝擊上,確保緊急應變(ER)和危機管理(CM)在良好的資源配合下成功運作執行。

發展『風險影響減緩策略』可以縮減營運作業中斷的影響範圍,它也是屬於更正性控制措施,可以改善緊急事件的應變能力,例如:

    • 對各種意外災難事件所造成的安全風險可以共同製訂參照緊急應變作業計畫。
    • 營運作業中斷可以立即採用預先訂定的標準作業程序(SOP),回復正常營運活動。
    • 主要辦公處所損壞,可讓員工遷移至異地備援中心或可在家裡進行日常業務工作。
    • 資訊系統通訊網路連線中斷,可立即採用備援計畫,重建網路通訊系統架構及恢復正常運作。
    • 電腦資料中心損壞,可立即啟動災難復原計畫,在異地備援中心回復系統正常運作。

 

(三)  營運衝擊分析(Business Impact Analysis, BIA)

 

營運衝擊分析是用來決定在意外災難事故中,需要被復原的重要營運作業有哪些?是由哪些部門負責運作?主要負責員工有哪些?相關的供應商及客戶也要被一同標定出來,再來確認會有哪些影響與衝擊發生,例如:員工健康與安全的損傷、環境汚染、顧客服務中斷、財務損失、法律或公權力的處份、和企業形象的損傷等。

依照上述評估之後,再來決定回復時間目標(RTO)與回復時點目標(RPO)

    • 回復時間目標 RTO (Recovery Time Objective):
    1. 組織內主要之功能組織在經 BIA 辨識後所訂定之恢復最低的生產或服務水平目標所需之時間。
    2. 備援系統取代原有系統開始提供服務所需的時間。
    3. 災難發生、系統中斷服務後,一直到系統恢復運作所需的時間(可容忍的系統中斷服務時間, recovery speed)
    • 回復時點目標 RPO (Recovery Point Objective):
    1. 備援系統取代原有系統開始提供服務時,在資料上所能回復到的可用時點,
    2. 災難發生前,最近一次資料備份/複製成功的資料時點(可容忍的資料損失, data loss)。
    3. 系統回復服務時,資料所能回復到的可容忍時點。

BIA 需要辨別是否有其他組織單位、廠商或實體資源對重要營運作業俱有關鍵性影響,例如委外作業,而 BIA 作業,也需要確認這些外部組織或廠商能夠支援回復營運作業。最後,BIA 的結果需要經過各管理部門主管的複核與認同,確認應負責任範圍,同意做好管理營運持續與復原的工作。

 

(四)  營運回復及持續策略

 

關於營運回復及持續策略必須透過 BIA 作業決定重要復原的營運作業,初期參與策略研擬小組的成員包括作業人員、主要協力廠商、及資訊系統維護人員,同時有下列幾種解決方案:

(1)       人工替代處理作業:當資訊系統短期無法重啟使用,將必須暫時以人工來替代處理作業,不過,要考量災區員工是否有能力恢復上班工作?或者要請非災區員工支援,人力需求準備的策略,必須事前規劃。

(2)       委外作業處理:有些營運作業在產業界是標準化製程或流程服務,可以委託給外部廠商或競爭者(互惠協定)處理,以降低營運中斷對業務的衝擊。

(3)       資訊系統設備災難復原作業:針對重要的營運系統進行復原工作,不過,通常要花費較昂貴的成本及時間,因此,本項作業需視可接受資訊系統中斷時間來決定,所以當意外災難事件發生開始的時候,會先以人工替代處理作業的方式進行。

(4)       替代備援廠房設備:確認有其他相同的廠房設備準備可以讓員工隨時進駐工作。

 

(五)  資訊系統設備災難復原

 

依據業務性質及仰賴資訊系統處理作業的程度,有一些核心營運作業的復原,是不需要先復原資訊系統設備,可是目前組織中,大部份核心營運作業都相當仰賴資訊系統所提供的服務,因此,資訊系統設備的災難復原計畫(Disaster Recovery Plan, DRP)在BCM作業中,扮演舉足輕重的地位,策略上,主要考量到以下幾點:

(1)       DRP文件必須詳述根據員工在BIA作業所做的決定回復作業的方向與策略,哪些重要的核心系統設備應該優先復原。

(2)       經常評估主要資訊系統設備的回復能力是否可以達到正常營運作業的標準。

(3)       經常必須整合主要資訊系統設備與資料元件的復原作業,足以支援主要營運作業。

(4)       由內部單位及外部廠商所提供資訊系統設備與服務,必須要詳述他們所提供資訊回復服務的內容與承諾。

(5)       要特別注意,一些資訊系統環境的要件,可能會在回復作業時,無法被正常使用,如大型圖案資料檔。

(6)       每個系統和電腦元件的回復策略不需要一樣,可各自獨立發展,然而,若要將這些系統元件在同一個地方或多個不同地點共同運作整合成一個系統,那網路頻寬就很重要。

(7)       災難復原計畫在設計時,資訊安全和法規遵循的標準就要先被考量進去,不能因此產生不必要的資訊安全風險。

 

關於備援計畫有以下四種型態:

(1)       熱備援計畫(Hot Recovery Plan)

    • 有備援計畫,擁有完整、設定好的硬體、軟體和各項必要的工作環境,可在極短時間內,及時啟動系統回復營運。
    • 通常回復時間從數分鐘到一天之內。

(2)       暖備援計畫(Warm Recovery Plan)

    • 有備援計畫,具備電源、空調、通信和高架地板等基礎設施,以及某部份的執行環境(某些硬體、週邊裝置),但沒有完整的設備或軟體安裝,發生災難意外事件,需要安裝系統設定參數,從備份媒體中還原資料。
    • 通常回復時間從兩天到十三天。

(3)       冷備援計畫(Cold Recovery Plan)

    • 有備援計畫,只提供緊急事件下可以繼續運作的建築空間,擁有電源、空調等基礎建設,但沒有任何電腦硬體,因此,需要重新採購,安裝系統,及從備份媒體中復原資料
    • 通常回復時間需要十四天至三十天。

(4)       沒有備援計畫(No Recovery Plan)

    • 沒有備援計畫,要被回復的資源及資料程序沒有被確定,資料備份計畫是用來預防有一天需要將資料還原。
    • 存在主要系統及營運作業無法被回復或延遲回復的風險。

 

(六)  認識與教育訓練

 

認識營運持續管理觀念及進行適當的教育訓練,對回復作業人力的安排是相當有效的,每年都應該至少舉辦一次營運持續管理教育訓練,提醒每一位負責人員瞭解 BCM 的觀念及實行策略與達成目標,確保每位成員熟悉自己的角色,以及緊急應變的處置方式,有關 BCM 教育訓練的內容,包含領導小組決策及管理溝通方式都是相當重要的。

 

(七)  營運持續管理作業的維護

 

不論政府機構或企業組織,經常投入大量人力、物力和時間,來發展營運持續計畫,但從來不維護,導致有些計畫內容與實際營運作業嚴重脫節,人員也有異動,各主要營運作業主管並不清楚 BCM 的要求?緊急應變的程序為何?如何進行危機管理?一旦發生意外災害事故,要怎麼進行復原計畫?BCM 要達成的目標是什麼?執行策略是否因環境而需要有所改變?稽核主管的責任,就是要確認管理部門對 BCM 的執行,若有上述情形發生,應立即向管理部門提出檢討改正,使 BCM 的作業規劃持續有效。

 

(八)  營運持續計劃的演練

 

要確認 BCM 的作業規劃及營持續計畫有效的最好方式,就是定期演練測試,這樣才能真正夠達到持續改善的目的,而測試演練的型態包括:書面計畫審查、流程測試、紙上推演、溝通與通訊測試、資訊系統環境遵循測試、異地備援測試、和點對點測試,另外一項必須要考量到演練的頻率,這和營運作業的變更、科技技術的變更、營運持續計畫小組成員的更換、以及預見災難發生結果相關聯。

 

(九)  危機事件溝通

 

『危機處理』是指危機爆發後所採取的因應措施,著重事後的處理。而『危機管理』則是針對潛在或當前的危機,基於動支資源最少、使用時間最短、波及範圍最小、損害程度最低的理念,有組織有步驟的採取最有效、最可行、最切實的對策和行動,通過必要的危機意識、危機處理、危機控制,以達危機解除為目標。當發生意外災害事件時,不論與組織相關內外部人士,皆非常關切事件對組織的影響及後續回復的情形,尤其,是新聞媒體,往往扮演該事件的調查者與宣揚者,一旦有任何訊息提供錯誤,或立場偏頗,故意誤導社會大眾視聽,容易導致危機擴大,因此,危機事件的溝通,其實就是公共關係的溝通,它包含所有利害關係人,員工、顧客、廠商、投資人、政府、及社會大眾。

 

(十)  和外部單位的協同運作

 

營運持續管理(BCM)作業,對於許多意外災害事故的緊急處理,不可能完全由組織本身獨立進行,例如火災,就需要消防隊的支援滅火,地震導致辦公處所損毁,需要請專業的救難大隊支援,國內外有許多針對各類意外災害事故所成立緊急救難組織,他們都是可以被聯結到我們組織營運持續計畫裡面,協同運作。

 

結論

 

BCM 是企業風險管理非常重要的一環,是為了保護企業降低受到重大意外災難事件導致重要核心業務停止運作的影響後果的嚴重性,稽核主管可以協助企業組織瞭解風險及建立有效的營運持續管理作業,讓各營運單位主管深刻體認BCM的重要性,同時知道應負起管理及監控有關營運中斷的風險,透過營運持續管理架構,進行風險減緩的決策與建立組織回復能力,辨別出那些重要的營運作業必須要復原,相關主要的營業循環活動才不會被中斷,這包含人力資源的評估與安排、物料資源的正常供應、營運設備的採購、回復文件的準備、資訊系統的安裝及資料的還原等,它是一項整合性的工作,並且要與緊急事件管理作業連結,所以,確保營運持續管理(BCM)作業的有效性,是營運持續能力的展現,同時,也是達成管理當局持續改善的承諾。

參考資料來源:

  1. IIA全球科技稽核指引(GTAG)-營運持續管理(Business Continuity Management, BCM)
  2. 英國標準協會(BSI) BS 25999-2:2007 Business Continuity Management, Specification
  3. 英國標準協會(BSI) BS 25777:2008 Information and Communications Technology Continuity Management: Code of Practice.
  4. ISACA Journal Volume 2, 2011: An Introduction to ICT Continuity Based on BS25777

關於 David Chuang

David Chuang
CFE舞弊稽核師、資料分析與電腦稽核專家 現 任: 台北商業技術學院會計資訊系兼任講師 - 電腦審計 兆益數位股份有限公司 總經理 中華民國電腦稽核協會理事專業發展委員會主任委員 台灣舞弊防治與鑑識協會理事暨會員發展與服務委員會主任委員