DCS故障分析及技術措施
一、概述
鎮海電廠#3-#6215MW機組從1998年開始進行自動化改造,選用國產的DCS系統,2007年起各臺機組陸續進行升級改造,目前已完成三臺機組的升級工作。鎮海電廠DCS的網絡結構由上到下分為監控網絡、系統網絡和控制網絡三個層次,如圖1所示。其中監控網絡中的工程師站、操作員站。高級計算站等和系統網絡中的現場控制站。
通過系統服務器實現互連;控制網絡由ProfiBus-DP構成,實現現場控制站與過程I/O單元的通訊。該系統可由多組服務器組成,由此可將系統劃分為多個域。鎮海電廠215MW機組的DCS均劃分為兩個域,即主機域和輔機域。每個域由獨立的服務器、系統網絡和多個現場控制站組成,域內的數據單獨組態和管理,完成相對獨立的采集和控制功能;兩個域共享監控網絡和工程師站,操作員站等則通過域名登錄到不同的域進行操作。
鎮海電廠DCS系統在升級改造前故障率相對較高,經過對歷年來故障統計的分析,主要故障有主控制器故障、I/O模件故障、服務器故障、控制網絡故障和其它因素等引起,以2006年度為例,#3-#6機組共發生DCS相關故障39起,其中主控制器故障13起,模件故障8起,占故障總數的53.8%,因此控制系統故障是熱工系統故障的主要因素,其分類統計情況,如圖2所示。
二、DCS故障現象及其分析
根據上述DCS系統所發生的主要故障發生類型,下面對鎮海電廠近年來應用DCS過程中比較典型的軟、硬件故障進行分析。
2.1主控制器故障
主控制器故障在鎮海電廠DCS故障中占有較大比例,而且引起主控制器故障的原因也各不相同,部分故障在單純復位或重新啟動后能夠恢復正常,部分故障則對機組運行產生了嚴重影響。
(l)異常控制器不能自動切換
2009年8月31日,現場檢查時發現#5機#11 I/O站和#26 I/O站主控器故障,均為A主控故障燈閃亮,雙機冗余通訊燈不亮,B主控備用。從工程師站上查看,主控制器顯示A主控為主,B主控備用,狀態顯示正常;查閱DCS歷史記錄,無相關故障記錄;相關I/O站內各參數采集、控制設備動作均正常。經分析,認為主控制器當前仍正常運行,但雙機冗余的同步性存在問題,如果這時發生主控切換將會出現較大擾動。而在這之前異常控制器不能冗余切換故障已發生過多次,如#3爐DCS系統曾發生一次風壓自動調節偏差大于36OPa時,運行人員手動干預操作送風機勺管調節執行機構無效,急忙至就地進行手操。熱工通過工程師站,檢查對應的#12 I/O站,發現A主控離線,B主控備用,在I/O站上查看A主控系統燈1和系統燈2均不亮,故障燈未亮,表明該主控已失去與系統網的數據交流,但主控未實現冗余切換。另#3爐#23 I/O站也曾發生過A主控故障離線,故障燈與雙機冗余數據交換燈均不亮,主控制器未自動切換。這些故障案例表明,MACS系統主控制器冗余切換功能不完善,某種故障狀態下該功能失效。
(2)散熱風扇故障導致主控制器故障
主控制器內的散熱風扇如果故障,將使主控制器故障率大大增加。自2005年以來,鎮海電廠統計的因主控制器內散熱風扇異產常導致的主控制器故障共計13次(這類故障的主控制器內散熱風扇均有一個或幾個運轉不正常或完全不運轉,一般在更換散熱風扇后仍能恢復正常運行)。
(3)電子室環境對主控制器的影響
電子室內的溫、濕度對主控制器有一定影響,強制散熱的主控制器影響更大。溫、濕度過高不一定使主控制器立即發生故障,但長期處于這種環境下必定會使主控制器故障率增高,而且從我們的統計來看,濕度的影響比溫度的影響更大。根據2005年以來的統計,每年3-6月份的主控制器故障次數約占到全年總數的1/3到一半多,這段時期正值南方濕熱的雨季,中央空調往往會補充大量的新風,電子室內濕度會有所增大。這種情況下發生的主控制器異常,一般均通過復位或重新啟動后可以恢復,只有個別需要更換新的主控制器。
2.2模件故障
與主控制器故障相比,模件故障相對容易解決,一般通過模件復位和更換模件就能恢復正常。但有些故障由于受其它因素影響,比較特別。
(l)外部千擾引起I/O模件離線
2007年1月,#5機組按計劃轉入小修。停機過程中,運行人員投微油點火裝置助燃,不久發生用于微油燃燒器壁溫測量的熱電偶測量模件故障,微油燃燒器壁溫顯示無效。熱工人員對模件復位后恢復正常。之后在小修和開機過程中多次發生該模件故障,均能夠通過復位得以解決,期間也更換過模件,但故障依舊。機組復役后該模件運行穩定,直至3月4日再次發生該模件故障。經現場檢查,接入該模件的二支熱電偶元件安裝位置與微油點火槍距離過近,當微油點火槍點火時高能電磁干擾通過電纜串入模件中,造成模件離線,并在試驗后得到確認。在調整熱電偶與點火槍的安裝位置后,此故障排除。
(2)單一通道的故障
模件故障有硬性和軟性二種,需通過更換模件來解決的我們稱之為硬性故障,而通過對模件進行復位可以解決的故障,我們稱之為軟故障,這種故障也有可能只反映在其中的某一個通道上,可以通過實際測量來判定。如2007年l月15日,#5機化補水調節閥不能開啟,無論DCS中給出的指令是多少,現場測量電流值始終為4mA。之后對該模件進行復位后控制復正常。另有一次#4爐定排疏水電動門開啟且無法關閉。現場檢查對應的開關量輸出模件,第一通道輸出為“1”(對應該電動門的開指令),而DCS中查看該通道的狀態為“0”,更換模件無效,對主控制器進行下裝后控制恢復正常。
2.3服務器故障
鎮海電廠DCS的監控網絡和系統網絡通過服務器實現互連,因此服務器故障將使處在上層監控網絡操作員站失去對下層系統網絡中的運行參數和控制設備的監視和控制,給機組的安全穩定運行造成嚴重的影響。2007年6月11日,#6機主機域主服務器故障,服務器未能自動切換,所有操作站上參數失效,控制失靈,運行人員依靠DEH和后備儀表維持機組運行。熱工人員在手動切換到B服務器后DCS恢復運行,但從系統狀態圖中查看A服務器連接系統網的下層網絡仍然處于故障狀態,本地網絡沒有連接,重新啟動服務器后網絡連接恢復。之后#6機又多次發生同類故障,檢查服務器主機及網卡均未發現異常,也更換過服務器,但至今原因不明。目前采取定期切換、重啟服務器的方法,有一定效果。
2.4控制網絡故障
一般來說,DCS網絡故障多發生在網絡設備如交換機、光端機的故障,往往在更換硬件后故障現象能得到解決。2007年1月29日,#3機一臺交換機故障導致監控網B網離線;之前#3機一臺交換機死機,導致系統網A網離線;#5機一臺光端機故障,導致#30站遠程I/O站離線;這些故障均在復位或更換網絡設備后恢復正常。
由于DCS的控制網絡連接主控制器和過程I/O模件,控制網絡故障對系統的影響范圍較大,往往是一段鏈路中的多個模件同時離線,其原因具有多樣性:
(l)網線連接配件故障
2007年2月5日,#3機組正常運行,#20 I/O站內多個參數顯示無效,控制設備操作失靈。現場檢查,#20 I/O站A主控運行,B主控備用,A列模件運行正常,B列、C列模件均離線。在做好必要的安全措施后切換主控制器,則B列、C列模件大部分恢復運行,個別仍有間歇性離線,而A列模件則都出現間歇性離線,間隔時間在幾秒到幾分鐘不等。查明的原因是B主控控制網的DP線插頭故障(DP插頭內部配有終端電阻,是否使用可選擇),導致鏈路中斷或阻抗不匹配,更換DP插頭后恢復正常。之后類似故障#3機還發生過兩次,均在更換DP頭后得以恢復,于是在機組檢修期間,我們對所有同類型的DP插頭進行了更換。
(2)DP總線“虛接”
鎮海電廠DCS遠程I/O站的控制網絡采用底座串接的方式擴展I/O模塊,這種連接方式靈活度高,便于分散連接,但同時存在DP通信的故障點多,通信總線的特性阻抗不穩定等缺點。2006年4月,#4機組發電機溫度測量遠程柜自第二個模塊以下全部離線,在按壓或觸碰這幾個模件后則能夠恢復,之后多次發生類似故障,基本以同樣方式解決。經分析,這類故障原因是因為垂直安裝的模塊底座受機械振動引起觸點松動和現場環境不佳如濕熱等將引起觸點氧化,會造成DP總線的“虛接”,特性阻抗不匹配。這類故障在安裝于現場的遠程I/O柜發生較多,而安裝于電子室內的I/O站則基本未發生。#4機發電機溫度柜在機組檢修時更換了所有底座并重新安裝后,這類情況有了較大好轉。
(3)故障模件對DP總線的影響
一段DP總線上幾個模件的通訊接口故障時,可能會引起一段DP鏈路上的所有模塊離線。如#4機給泵溫度遠程I/O柜內曾發生多個模件頻繁離線,離線間隔時間短則幾秒鐘,長則幾分鐘甚至更長,DP總線無虛接現象。采取下裝主控、更換模件等手段均無效。在插拔模件的過程中,當拔到某一個模件則DP鏈路恢復正常,再插回則又有模件開始離線,因此判斷是模件故障引起整個一段DP鏈路上模件離線。通過逐一排除的方法共查到有一塊模件故障,事后拆開模件肉眼能看到有電容元件不同程度爆裂的跡象。
模件故障影響一段DP總線上模件離線的故障點較難判斷,離線的不一定是故障模件,故障模件也不一定會離線,但沒有好的測試手段,只能用逐一排除法來進行故障點的判斷,在機組運行時有一定的難度和風險。但這種總線故障在只有一個模件故障時不會出現,而且模件內的故障點能用肉眼觀察到,因此機組檢修時可以對模件拆開檢查,能起到很好的預防效果。
2.5其它因素引起的故障
(1)GPS時鐘對DCS的影響
鎮海電廠DCS的系統時鐘是由服務器通過與GPS電子鐘通訊進行校時的。2006年9月17日,#4機組正常運行時發生DCS操作員站均離線退出運行,主機域和輔機域兩個冗余服務器中的主服務器均離線退出運行,工程師站離線退出運行,主機域和輔機域的冗余服務器自動切換成功。正在現場的熱工人員立即啟動工程師站,運行人員通過工程師站維持機組運行。經現場分析,由于GPS電子鐘故障,DCS系統時鐘被錯誤地校成了2178年,而因此造成操作員站離線則應是系統程序的bug。在恢復系統時鐘后,逐一啟動操作員站和服務器,DCS恢復正常運行。
(2)控制系統邏輯不完善
控制邏輯組態的不完善,很難通過正常的試驗發現,正常運行中也不會有問題,但在某種特定條件下會影響到機組安全穩定運行,甚至聯鎖保護誤動。如#5機組215MW滿負荷運行,甲給水泵運行,乙給水泵備用時,甲泵前置泵流量超限報警(超量程上限800t/h),隨后甲泵再循環調節閥自動開啟,給泵出口壓力低報警,汽包水位低至-120mm。經檢查設主給水最大設計流量為680t/h,前置泵流量變送器量程設置為0-800t/h。DCS組態中,前置泵流量的判斷使用“幅值報警”模塊來實現,該模塊低報警、低低報警值均設置為200,高報警、高高報警值則均設置為800,當前置泵流量前置泵流量小于200t/h(給水泵小流量保護)或超過800t/h時,均聯鎖開啟給泵再循環調節閥。這種組態沒有考慮極端情況,后改為“比較器”模塊,只發出單一判斷信。
(3)維護措施不當
不適當地使用超級權限,可能會導致控制器邏輯運算錯誤。如#3機組曾因RB邏輯不完善,熱工技術人員使用超級用戶權限在線修改定時器類型時,定時器輸出變位而觸發機組RB保護動作。實際上超級用戶權限是DCS廠家限制使用的權限,有其不確定性,在安全措施不完善的情況下極易引發事故,因此其使用要非常慎重。
三、提高Dcs可靠性的技術措施
隨著DCS在火電廠中的廣泛應用,其在機組安全穩定運行中所占據的主導地位愈加突出。由于DCS設備軟硬件的可靠性、控制邏輯的完善和合理性、熱工人員維護和檢修水平等諸多因素的影響,使機組誤跳閘事件仍時有發生。因此進行有效的技術管理和正確的檢修維護,保持火電機組DCS的穩定、可靠運行也就日漸成為熱工人員日常管理、維護的重點。為此筆者結合上述案例分析,從提高控制系統可靠性著手,提出一些防范措施供檢修維護中參考:
(l)對DCS設備和檢修維護實行全過程管理,盡早發現缺陷并及時處理。完善DCS自診斷和故障報警功能,對DCS運行狀況的實時監控不僅要監視主控制器的狀態,還要監視主控制器網絡的狀態。
(2)制定合理的定期維護制度,詳細規定檢查維護的內容、方法和周期,并對檢查結果進行分析,采取針對性的預防措施。鎮海電廠自從試行這項制度以來,有效地控制了DCS故障的發生。
(3)制訂DCS應急預案和典型故障處理方案,防止因維護不當引起的DCS故障。
(4)選用品質較好的備品配件,如主控制器的散熱風扇、DP插頭等,對于易損部件實行定期更換。
(5)對電子室的環境溫度進行遠程監測,接入DCS顯示,實時掌握電子室環境溫度的變化。使用中央空調的電子室還應注意濕度的控制,如有必要應增裝獨立的空調或除濕裝置。
(6)檢修時對模件電路板外觀進行檢查,能起到很好的預防效果。
(7)深入了解DCS軟件性能,采取合理的組態方法防止極端工況下的誤動;禁止使用“超級用戶”等不規范的手段進行軟件修改。
文章版權歸西部工控xbgk所有,未經許可不得轉載。