發新話題
打印

rca根本原因分析

rca根本原因分析

RCA技術及其實施過程

劉義樂  張雨

摘要:本文以美國能源部的DOE 5000.3A《事故報告和操作信息的處理》、DOE-NE-STD-1004-92《根本原因分析指南》以及PII公司的根本原因分析(root cause anlysis,RCA)為基礎,詳細論述了RCA的基本概念、實施過程分析方法和應用案例,用於改進和提高我國裝備和設備管理的可靠性和可用性。

關鍵詞:RCA,設備管理,維修

1引言

隨著複雜裝備維修成本的提高和因故障停機對裝備效能的影響日趨嚴重,如何有效地實施以可靠性為中心的維修,或者說在以可靠性為前提的條件下,盡可能地縮減維修範圍和維修程序或者說,實現維修的精益化,成為維修領域專家研究的熱點,同時也是推動各種維修理論和維修技術不斷向前發展的一個主要動力。

在實現精益維修[1]的過程中,除了充分利用現有的維修理論和技術如RCM、FMEA和FTA外,一些新的維修理論和技術不斷引入,根本原因分析技術(root cause analysis,RCA )就是上個世紀末國際維修保障領域經常使用的一種用於縮減裝備維修範圍的有效工具。

2 RCA的基本概念

IOWA州立大學質量管理學院認為[2]:很多公司在設備發生故障後,都能夠很快修復,但往往很難發現哪些是引起這些故障的根本原因,這樣會導致故障會再次發生。這裡所說的根本原因,是指導致設備失效的基本原因,如果該原因得到糾正,將會避免該事故重發。根本原因分析技術是一個發現和消除根本原因的過程,能夠有效防止這些問題的發生,只有當這個根本原因被發現和消除後,這個問題才能夠被徹底解決。

而美國能源部1992年發布的《根本原因分析指南》(DOE-NE-STD-1004-92)中,把根本原因定義為[3]:指一種原因,當這種原因被糾正以後,將會防止此類事故或者類似事故的再次發生。根本原因並不是一種僅僅導致這次事故發生的原因,在更大的範圍內,極有可能對發生的其他事故還存在著影響。根本原因最基本的特徵應該是:從邏輯上能夠被識別並能夠被糾正。可能會有一系列的原因都能夠被識別,從一個導致另一個,但是這一系列的原因應該能夠被追溯到最基本的,並且能夠被識別和糾正的原因。

在我國大亞灣核電站的建設和運行過程中,由美國PII(performance improved international)公司提供了RCA方法,該公司把RCA定義為[4]:通過一整套系統化、邏輯化客觀化和規範化的分析方法,找出設備故障的故障機理和根本原因,並通過制定合理的糾正行動徹底消除這些根本原因,從而恢復設備功能,防止同樣或者類似故障重複發生的一種解決設備故障問題的分析技術。

3 RCA的實施過程

儘管不同機構在RCA的定義表述上有著區別,所推薦的RAC實施過程也存在著一些差別,但其核心內容卻大致相同。這裡,我們以美國能源部5003指令5000.3A《事故報告和操作信息的處理》[5]為基本依據,來說明RCA的實施過程。

3.1 DOE Order 5000.3A中規定的根本原因分析步驟

DOE Order 5000.3A中規定的根本原因分析步驟共分為五個階段,即數據收集、原因評估、矯正措施、通知和後續行動。

階段1數據收集

在事故發生以後,應立即開展根本原因分析的收據收集,以防數據丟失。在不危及安全性或者災後重建的情況下,數據甚至應該在事故發生時就開始收集。被收集的信息包括事故發生以前、發生過程中和發生以後的情況,所涉及的人員(包括所採取的措施)、環境因素以及其他一些同事故發生有關的因素。

階段2評估

評估的主要目的是把收集到的事故數據進行分析,確認各種原因因素,然後總結這些因素,直至找到導致事故發生的根本原因。

事故原因評估一般分為三個步驟,首先是識別存在的問題,判定這些問題的重要性,其次,圍繞存在的問題識別事故原因(狀態或者措施);然後對這些原因進行分析,列出符合標準要求的各種原因因素,並給出推薦的糾正措施。最後,按照給定的表格樣式,把分析過程和結果添入RCA的計算機系統。

按照事故原因評估程序的要求,事故原因評估的結果可以區分為直接原因、起作用的原因和根本原因,這些原因形成一個導致事故發生的原因鏈,原因評估的過程就是按照這個原因鏈,一步步追溯,直到找到導致事故發生的根本原因為止。這裡的根本原因,即基礎的原因,只有對根本原因進行矯正,才會防止事故的再次發生,並且能夠防止整個設備系統中類似事故的發生,找到這種根本原因是評估階段的停止點。

例如,在一次核洩露的事故中,根本的原因可能是管理手段有缺陷,因而不能確保對設備維護程序的有效管理和控制,這個根本原因將會導致設備維護人員可能使用不正確的密封材料或者遺漏掉一些部件的預防性維修項目,最終導致了核原料的洩露。在這個例子裡,按照表1的原因分類方法,管理手段的不足就是導致事故發生的根本原因,人員錯誤則是導致事故發生的直接原因,其他問題,如人員培訓不足或者維護手冊表述不清都可能是導致洩露事故發生的起作用的原因。

階段3矯正措施

識別出導致事故發生的根本原因後,需要針對原因鏈中的每一個原因採取適當的矯正措施,以降低同一個事故再次發生的概率,並且改善其安全性和可靠性。在設計糾正措施時,還需要考慮一系列和矯正措施相關的問題,如該措施是否防止了事故的再次發生?該措施的可行性如何?該措施的實行是否會引入新的風險,假定的風險是否已經被清楚地描述?如何安排不同糾正措施的實施順序,實施該措施是否需要進行培訓,需要哪些資源等?以保證這些矯正措施可行、有效且能夠持續改進和發展。

階段4通知

把根本原因分析過程和推出的矯正措施輸入計算機輔助的事故報告和處理系統,是通知階段的一部分工作內容。同時,還包括對分析結果、糾正措施以及在事故中涉及的管理問題和人員等問題的討論和解釋,最後,還應該考慮到把此次根本原因分析過程的有關結論信息通知給一些跟此設備類似或者有相關關係的設備和人員,以使RCA在更大範圍內發生作用。

階段5後續行動

後續行動主要用於判斷所確定的糾正措施在解決此類問題方面是否有效。首先,這些矯正行為應該被跟踪,以確保被正確實施;其次,對這些糾正措施應該有一個週期性評審,以確保這些矯正措施確實達到了預定的效果;近期發生的類似事故應該被仔細分析,以說明為什麼這些措施沒有達到預定的效果;另外,當分析的系統發生變化時,必須對變更部分重新進行RCA;最後,應該充分利用計算機系統所保存的事故分析記錄不斷進行評審和總結,以使RCA達到更好的效果。

3.2 PII公司的RCA分析流程

除了DOE-NE-STD-1004-92所描述的RCA過程外,大亞灣核電站採用的PII公司RCA技術,其分析過程可以簡單描述如圖1所示。從圖1可以看出,PII公司的RCA流程和DOE Order 5000.3中規定的RCA步驟基本內容大致相同,只不過5000.3中的數據收集階段含了PII公司分析流程中的設備故障描述以及影響範圍的確定和數據收集兩個步驟;而PII公司的分析流程中突出了一種根本原因判定的方法,即故障模式分析和評定,並希望以此方法來重構故障情節,作為判定根本原因的依據。在5000.3中,則是推薦了包括FMEA在內的數種方法來分析根本原因,如因果分析法、屏障分析法、管理疏忽和風險樹分析以及人素分析等方法。

4 RCA分析方法和事故原因分類
4.1改進的FMEA方法在RCA中的應用

在事故原因評估過程中,FMEA是一種常用的方法,也是裝備可靠性領域最為熟悉的一種方法,但同航空工業中推行的傳統FMEA相比,用於RCA的FMEA是一種“改進”的FMEA。

兩種方法的根本區別在於,傳統的FMEA方法是基於蓋然論的,主要分析哪些事件可能發生,以及這些事件發生的影響,而改進的方法則主要針對歷史事件,即那些過去已經實際發生的事件的影響。換句話說,傳統的FMEA關心所有可能發生的事件,而改進的FMEA只關心過去哪些事情已經發生了。

另外,由於傳統FMEA執行時需要耗費大量的人力物力,改進的FMEA運用常見的二八律來確定根本原因的範圍,即在所有的故障事件或者企業所不希望發生的事件中,只有20%或者更少的重要事件給企業帶來的損失超過全部故障損失的80%。通過集中精力分析這20%的重要事件,可以以相對較少的投入在較短時間內實現較大的產出。這就是RAC和改進的FMEA技術在一般工業領域大受歡迎的根本原因。

4.2常見的其他RCA分析方法

除了FMEA以外,其他常用的分析方法還包括:

因果關係方法:即用圖形的方法表示出圍繞著導致事故發生的一系列任務/行為措施的時間順序,明確這些任務之間因果關係,此方法有利於形成原因評估時所需要的原因鏈。

替代分析法:在對問題界定不明顯的時候,可以使用變化分析方法,尋找就究竟是哪些因素導致了事故的發生。

屏障分析:屏障分析也是一個系統的過程,能夠用於識別能夠防止事故發生的那些物理的、行政管理的和程序過程中的屏障或者控制措施。

管理疏忽和風險樹分析:主要用於識別那些屏障或者控制措施的具體的屏障或者保障功能以及管理功能的不充分之處,它能夠識別出導致事故發生的具體的因素,以及允許這些因素存在的管理原因。

人素分析:主要用於識別出那些影響任務性能的因素,焦點在於可操作性、工作環境和管理因素。人機界面的研究可以改善或者提高針對訓練標準的優先權。

4.3事故根本原因的標準分類

無論採用哪種分析方法,導致事故發生的原因必須歸納為一系列得到認可的原因分類。 DOE Order 5000.3中,事故原因共分為七大類,34小類。具體分類見表1所示。

表1 DOE 5000.3指令中的事故原因分類列表

事故原因分類(大類)
故障原因分類(大類)

裝備/原材料的問題
A有缺陷或者有失效的部件; B有缺陷或者有失效的材料; C有缺陷的焊縫或者焊點或者焊接連接; D製造商在運輸或者標記過程中的錯誤; F電子或者器械的噪音; E污染物

程序錯誤
A有缺陷或者不適當的程序; B必要程序的缺少

人員錯誤
A不適當的工作環境; B對細節的疏忽; C違反需求或者程序D口頭的信息傳達錯誤; E其他的人員錯誤

設計問題
A不合適的人機界面; B不合適或者缺陷的設計; C在器材或者材料選擇方面的錯誤; D圖形、規範或者數據的錯誤

培訓不足
A沒有提供培訓; B實踐經驗或者親手操作的不足; C培訓內容的不足; D後續培訓不足; F對培訓內容的表述錯誤

管理問題

  
A不適當或者不充分的管理控制; B工作組織或者計劃的不足; C不適當或者不充分的監督; D不正確的資源分配方法; F政策沒有被充分地定義、公佈或者強制執行; E其他的管理問題

外部現象
A天氣或者環境狀況; B能源供應的中斷或者各種瞬態現象; C外部的火災或者爆炸; D盜竊破壞等行為




5 RCA的應用示例

2002年1月12日,大亞灣核電站1號機組並網升功率過程中,由於汽輪機旁路系統(GCT)的121排放閥(以下簡稱1GCT121VV)的定位器反饋連桿突然斷損,最終導致反應堆緊急停堆。

事故發生後,電站的RCA小組立刻按照預定的程序對該事故進行了RCA分析,最後發現,導致該事故發生的根本原因在於1GCT121VV的2個固定螺栓均未裝鎖緊墊片,長期振動環境造成2個固定螺栓脫落,致使閥門開啟時橫桿折斷。找到了事故的根本原因之後,RCA分析小組提出了更改鎖緊墊片設計、定時檢查螺栓緊固情況等矯正措施,並把分析結果和矯正措施應用於電站系統中所有類似閥門。

PII公司先後在大亞灣核電站和嶺澳核電站應用推廣了RCA技術,幫助他們逐步建立了電站RCA管理體系。幾年來RCA小組共完成了30多起電站重大事件的根本原因分析,高效準確地找出了導致事故發生的根本原因,制定了相應的糾正措施,有效地避免了重大設備事故的重發。事實和實踐證明在高科技密集、重要設備密集、風險密集的工程單位應用和推廣RCA分析技術和方法,並建立一套較完善的由上至下的RCA分析管理體系十分必要。

6結論

RCA技術在國外已經發展多年,在核工業領域應用地較為普遍,但是在我國,無論在理論研究方面還是具體應用方面,都不夠深入。尤其在普通的生產製造領域和軍隊地面裝備保障領域,全面採用FMEA是不現實也不經濟的。而藉鑑或者採用RCA技術,以較少投入獲取較大收益,對於不斷改進和提高我國裝備和設備管理的可靠性和可用性,具有重要意義。

TOP

發新話題