分散控制系統故障分析和提高可靠性
摘要:本文結合電力生產實際,對近幾年來安徽省火電廠分散控制系統(DCS)運行中的故障和安全隱患進行分析,并就進一步提高DCS安全可靠性及應用技術水平提出了建議。
由于DCS在火電廠中得到了普遍應用,熱工自動化系統由原來的配角地位轉變為決定機組安全經濟運行的主導因素。但是,隨著DCS使用年限增加導致的電子元器件老化、DCS的設計缺陷、應用水平的不夠高、現場調試及日常運行維護工作中出現的紕漏等因素,或多或少地會影響機組的正常運行,嚴重時將導致機組的跳閘。因此,加強熱控技術監督,完善DCS設備自身性能,防范DCS故障,進一步提高DCS應用技術水平便成為當前熱控專業人員、DCS制造廠需要認真研究和解決的一個重要課題。
一、關于DCS軟/硬件
由于DCS系統在硬件設計及其可靠性技術方面尚存在的一些問題,各種模件(特別是I/O模件、通訊模件和控制器)故障而導致輔機跳閘和主機保護誤動機組被迫停運的次數在DCS故障類型中是最多的。
控制器故障表現在:主備切換不正常、脫網、負荷率高、甚至運算速度不一致而導致錯誤邏輯關系等等。究其原因,與控制器抗干擾能力差,或系統安裝、連接不規范,配置和設計不當(數量常常因商務原因而配置偏緊,設計未遵循各系統的均勻性原則);DCS運行外部環境溫度高(如控制間空調、電源風扇和機柜風扇故障等造成);供電電源波動大和切換時間過長;設計缺陷(如采用高功耗的芯片引發控制器溫度過高)等有關。
部分DCS的AI模件(主要是熱電偶、熱電阻模件)測量精度差、誤差大,特別是DI/DO模件發生莫名其妙的瞬間跳變,對機組的安全運行構成了嚴重的威協;仍存在DCS設計時對重要I/O點沒能完全考慮采用非同一板件的冗余配置。
目前部分機組汽機跳閘系統(ETS)采用了納入DCS一體化的設計?;痣姀S設計技術規程 (DL 5000—2000) [1] 第12.6.1中明確規定:爐、機跳閘保護系統的邏輯控制器應單獨冗余設置。機組緊急跳閘系統ETS對時間響應要求高,過去所采用的電磁繼電器等設備不存在采樣周期問題,但納入DCS系統后對控制周期有一定的要求。按照最新頒布實施的《火力發電廠熱工自動化系統檢修運行維護規程》(DL/T 774-2004)[2] 第4.2.1.3.4條中控制器模件處理周期的規定:快速處理回路中,模擬量控制系統不大于125ms,專用開關量控制不大于50ms??梢园?0ms作為ETS保護回路的一個標準。但個別電廠DCS、ETS一體化設計的DCS系統難以滿足兩規程中的要求,實際為ETS和FSSS共用一對DPU,且ETS運算周期為100ms。
DCS組態軟件存在的隱患表現在:控制模塊輸出異常、控制器程序在線下裝功能不完善、歷史數據丟失、記錄和軟光字牌功能不完善、功能模塊功能不正常(如 “三選”和“二選”模塊不能做到自動切換等)。某電廠#13爐曾發生兩起因DCS的PID模塊輸出異常導致鍋爐MFT的事故。
國產DCS系統軟、硬件升級周期過短,從而給人感覺DCS開發缺乏系統性;在開發新功能方面,國外的系統主要考慮成熟性,因而系統組態都比國內系統較難掌握。軟、硬件升級不當,由此可能會給DCS和機組運行帶來安全隱患。近年來安徽電網大機組就曾發生多起DCS版本升級后因軟件設計漏洞、硬件驅動程序不匹配造成通信網絡紊亂機組跳閘的事故。
二、關于通信網絡
DCS通信網絡堵塞現象表現在:操作員站顯示信息變慢、不能操作,控制器脫網,冗余控制器(服務器)切換不成功,數據通訊中斷或異常等。通信網絡堵塞涉及到設計、運行和維護等諸方面,主要和以下幾種因素有關[3]:
1)采用廣播式協議時,一個結點向網上的其他結點問詢數據,如果其他結點沒有這個數據,它就反復進行問詢工作,直至讀取到這個數據。那么如果網絡上根本沒有這個數據,就會造成網絡堵塞。
2)對DCS系統進行軟、硬件的不當改動或升級,因系統硬、軟件不匹配引發DCS網絡通訊堵塞。如某電廠#3機組DCS系統由原來V1.2.0 升級到V2.3.1B版本,在升級時更換了主控單元DP卡,多功能卡,電子盤,但網卡未相應的升級。因新版本軟件與原來的網卡驅動程序不匹配,這樣當16、17、19號I/O站主控單元切換后因個別點的擾動造成主控單元的網絡驅動和網絡任務沒能成功啟動,進而使16、17、19號I/O站故障離線導致DCS系統紊亂機組跳閘。
3)在極端工況下,外部觸發因素可利用NT操作系統的安全漏洞,引發偶發性的大量報警信息,導致網絡異常。如某電廠#2機組就發生過2起因DCS系統發出一種“I/O驅動出錯”的大量系統報警信息(每秒約450余次)使網絡通訊發生癱瘓機組跳閘的事故。
4)由于電廠管理信息系統(MIS)需要從DCS中讀取生產實時數據。在網絡中接進動態數據服務器,網絡堵塞現象就變得十分頻繁,從而使得各種人機界面的結點出現死機現象。另外當DCS與MIS網未配置防火墻隔離時,病毒有可能是通過MIS網絡傳播至DCS(如某電廠#4機組所有人機接口站曾感染了一種名為lovegate的病毒),使DCS人機界面感染病毒,從而造成各種人機界面的結點出現死機(或操作信息反應遲緩)現象。
5)DCS運行時間比較長的情況下,電廠的維護人員不斷更替,控制器的組態也不斷變化,但有一個現象是:組態只加不減,有一部分組態實際上已沒有與真正的I/O點相連。而控制器讀取數據時,欲將該控制器上所有數據點都讀上去,而其中有很大數量的數據點是無效的,因而造成控制器負荷率過高,網絡堵塞。此外,有些DCS工程技術人員在系統配置、I/O分配以及邏輯組態時,沒有合理規劃和設計,造成部分控制器、操作員站負荷率較高,在運行中發生通信堵塞而影響機組安全生產。
三、關于事件順序記錄(SOE)
事件順序記錄(SOE)是電廠重要的運行狀態監測、記錄、事故分析用設備,它能以ms級的分辨力獲取事件信息,為熱工和電氣設備事故分析提供有力的證據??梢哉f其性能直接影響機組和重要輔機跳閘事故狀態分析的及時性和準確性。2004年以前由于缺少必要的測試設備以及發電企業重視不夠,SOE功能測試工作基本處于空白狀態。對近幾年來安徽電網火電廠生產情況的分析,SOE方面確實存在一些問題:一是對SOE記錄設備不能進行正常的周期性測試,因而無法確認其設備運行健康與否;另一方面數個電廠發生SOE記錄不正?,F象,造成不能對機組跳閘進行及時、準確的判斷。
對安徽省內火電廠主要DCS系統SOE功能測試結果表明[4]:設計在同一個機柜(DPU)內的SOE分辨力達到1--2ms,滿足規程[2]要求;但對分布于不同機柜(DPU)的SOE分辨力,部分DCS系統仍能達到2ms,而個別DCS系統則不能滿足規程要求。
通過對SOE的測試,還發現個別機組SOE系統存在一些隱患或問題,可能會造成SOE記錄不全或不正常。如某電廠#2機組DCS系統部分SOE信號記錄順序與所接信號不相同(系DCS系統Soerec.ini組態文件中的組態與實際位號錯位造成);某電廠#2機組SOE設計點數明顯偏少,缺少手動跳機、MFT全部始發條件、爐膛層火焰消失信號、絕大部分重要輔機跳閘的始發條件等諸多關鍵信號。這些問題的存在可能會造成SOE信號記錄與實際動作設備不相同,使相關人員難以對設備故障原因提供準確快速的分析,甚至還可能會產生錯誤的結論。
四、關于供電電源
DCS系統的供電電源是DCS可靠工作的重要保障。采用較多的方案有:N+1電源,兩路直流電源各帶50%負荷,兩路交流電源冗余運行(一用一備)等。最后一種方案在DCS電源切換時存在安全隱患,即在電源電壓斜坡下降的過程中,電源切換裝置不能可靠進行切換,在電源電壓降至DPU不能正常工作時,備用電源仍未能工作,有可能造成DPU初始化,所有數據丟失的現象。目前這個問題還難以徹底解決,因為切換電壓主要取決于切換繼電器的釋放電壓,而每個繼電器不可能有完全相同的釋放電壓。
工程師站、操作員站供電是DCS系統供電的薄弱環節。常常是1路(220V AC)電源供操作員站或2路(220V AC)分別對一半數量操作員站供電、1路(220V AC)供工程師站及其打印機等,對每臺站而言,實際為單路供電。
DCS備用電源切換時間要求在5ms以內[5],但個別DCS電源切換過程中電壓波形有畸變現象,切換時間為40ms左右。
如果DCS系統機柜內的24V/48VDC的冗余配置不合理,在特殊情況下也會導致機組跳閘。如某電廠#2機組因DCS系統#7DPU柜內的24VDC冗余配置不合理(三臺汽包水位變送器設計在同一個電源回路上),當該路電源總保險越級熔斷后,導致全部汽包水位變送器失電,BMS判斷汽包水位高,引發鍋爐MFT。事實上,這種接法只能保證兩個冗余的變壓器其中的一個故障另一個可接替供電;而一旦像#7DPU這樣第一路24VDC電源保險熔斷則所有該端子排上24V電源消失,另一路所謂冗余供電電源失去意義。整個供電回路設置并未實現真正意義上的危險分散。
在作試驗驗證電源的安全性時,往往也被廠家承諾的所謂“冗余”誤導,只將兩個變壓器輸出端分別解掉測量端子排有電就認為系統是安全的,而沒有仔細檢查DPU內部的預制電纜實際接線方式。
從該事件中我們也可以看到,在之前如果能夠認真全面地按照有關行業規程開展DCS冗余電源系統的測試是完全可以避免該次跳閘事故的。
五、關于DCS的設計組態
5.1 DCS的工程組態設計
限于工期、人力、技術等因素,一些電廠對DCS的“工程組態設計”僅將原控制策略“翻譯”成DCS組態軟件即告完成。在重要的保護和聯鎖邏輯組態設計時,未推行容錯設計,沒有以系統的觀念進行考慮,特別是現場設備和控制設備本身可能的多種運行方式,造成機組不應發生的跳機跳爐事故。如某電廠#2爐聯鎖順序啟動電泵過程中應該開啟的電泵冷卻水電動門沒有聯鎖開啟,從而導致電泵工作油溫迅速上升至跳閘值。根據歷史數據分析,原因是兩頁邏輯時間配合上的問題(電泵順控頁和電泵冷卻水控制邏輯頁周期分別是200ms、500ms);某電廠#2機組啟動時一切正常,但在機組一并網霎那,DEH的目標一下跳變為機組負荷的最高值320MW,因為這時參數較低(主汽壓力5.0MPa),所有的高調門瞬間全部開完,主汽壓力突變大幅度降低,汽包水位(虛假水位)突變到最大,機組MFT。由于當時未能及時查清原因,之后又發生了一次,后經多次試驗,才查出其中有一頁運算周期時間相差50ms,從而導致組態邏輯控制出錯所造成的。但這是一種隨機現象,即當兩頁運行周期不一致而又有引用關系時,就有可能發生隨機的信號丟失現象,根據概率理論,信號不被丟失的概率等于兩頁運算周期的時間比。因此從某種意義來講,這是隱藏的一種事故。同時提示我們在進行工程組態時要注意更深一層的頁與頁間的時間配合問題。
5.2 報警系統的設計
報警系統是人機界面的重要組成部分,同時報警系統涉及的數據信息量多面廣,也是導致DCS通信故障甚至控制器、操作員站“死機”的禍根。報警系統的設計是目前DCS應用(特別是老機組DCS改造項目)的薄弱環節。
“報警信息多”是很多機組DCS的通病。除設備原因外,不合理的報警內容使得報警系統異常繁瑣。機組正常運行時,出現的大量報警信息對運行人員沒有多大參考價值,有時反而是一種干擾;在機組出現異常工況時,所需要的關鍵信息又淹沒在大量的報警信息中,沒有分類有序管理。我們認為應提高DCS報警技術水平,設計智能化、動態的報警系統。如:同時出現相關報警只顯示真正原因(其它可查找),而不列出全部報警條目、實現報警智能化;報警狀態、參數的設置與設備(機組)運行狀態密切關聯,以實現動態化報警。通過報警管理,分層分級向電廠運行、管理人員及時報告機組狀況及原因:健康、亞健康、局部故障(不影響運行)、局部故障(降負荷運行)、事故停運等,真正使報警系統有效發揮作用,是目前DCS設計應用中需不斷研究、探討的課題。
六、關于DCS失靈后的后備操作
《防止電力生產重大事故的二十五項重點要求》[5]第12.l.6條規定了“緊急停機停爐按鈕配置,應采用與DCS分開的單獨操作回路”,但目前仍有部分機組的手動停爐停機按鈕沒有直接接入跳閘驅動回路中,而是直接進入DCS/ETS系統的輸入卡件通道,參加邏輯運算后,再通過輸出回路送至跳閘驅動回路。這樣在DCS/ETS失靈后,運行人員將無法在集控室進行手動緊急停爐。
火電廠設計技術規程[1]第12.6.1.2.5條規定“機組跳閘命令不應通過總線傳送”,但是,仍有個別機組的跳閘指令在DCS控制器內獲得運算結果后,通過DCS的通訊總線再去完成跳閘動作,結果一旦DCS或通訊總線出現故障,就有可能使機組的跳閘指令失去應有的作用。
部分機組電氣未設計潤滑油壓低聯啟直流油泵的硬邏輯。當DCS癱瘓機組DCS邏輯不起作用后,潤滑油壓低后有可能造成直流油泵無法啟動,存在汽輪機斷油燒瓦的隱患,近年來曾發生多次類似的事故。因此系統設計上必須充分考慮安全原則,系統配置還應以滿足安全生產為第一位。特殊有關安全的緊急操作不能完全建立在DCS完好和運行人員手動干預的基礎上。涉及機組安全停機和失電情況下的安全聯鎖功能以及大、小機油系統的聯鎖功能,除在DCS內用軟邏輯實現外,還應在就地硬邏輯中設計并實現。
七、幾點思考和建議
上述諸多問題(包括DCS自身和應用技術兩方面)有些已直接影響到機組的安全穩定運行。因此需要有關部門領導加以關注和重視,技術監控單位、發電企業專業人員加強技術監督力度,全面認真地貫徹執行國家和電力行業規程規定,以努力減少DCS系統的不安全因素,提高DCS運行可靠性。
1)DCS制造廠應與時俱進,舉一反三,深入了解目前火電廠DCS應用中存在的問題,針對其DCS自身的不足以及硬件配置可能產生的安全隱患,從軟硬件等多方面不斷地完善和發展,使已在使用或即將付諸使用的DCS軟硬件具有足夠的可靠性,使其功能、性能滿足電力行業規程規定。另外DCS制造廠應及時通報本公司DCS系統在某電廠所出現的故障及處理辦法,這樣可避免其它電廠再次發生類似的故障。
2)技術監控單位需要針對現有的DCS模件和網絡故障的預防監測處理方法開展研究,探討現有設備預處理問題的能力;同時在必要時向有關發電集團發出預報,并由發電企業主管單位對設備制造商施加影響,在設備招標前明確責任和懲罰辦法,以便對出現的問題能夠得到及時的妥善處理。
3)目前由于電廠試驗管理認識不足,相當多電廠DCS/DEH在線驗收測試工作基本上處于空白,為機組安全運行埋下了隱患,這些隱患(問題)在近幾年出現的機組異常/非計劃停運中都有所反映。對首次應用的DCS/DEH系統在投產、大(?。┬藓笳J真按照DCS/DEH技術規范書(技術合同)、《火力發電廠熱工自動化系統檢修運行維護規程》[2]、火力發電廠分散控制系統在線驗收測試規程[6]等行業規程規定,對DCS/DEH系統進行有針對性地開展在線測試工作,不失為一種積極有效的預防性措施。
4)某廠#2機組24VDC電源問題是在實際運行當中出現的,其狀況比較特殊。但通過這起事件也使我們意識到在DCS內部有可能還存在著一些隱患,非到特殊情況不容易被發現。導致問題出現的原因可能有廠家設計存在缺陷、出廠測試疏忽或現場調試服務人員遺漏的因素,也有我們日常運行維護工作中出現紕漏的因素。這也敦促專業人員在以后的工作當中應當深入學習,更加全面了解DCS系統軟/硬件設置,發揮它的最佳效能為發電機組的安全穩定運行服務。
5)DCS網絡異常涉及到網絡通訊負荷率高、控制器負荷率高等問題,由于目前還沒有有效的手段在線監測控制器負荷率和網絡通訊負荷率,想徹底杜絕這類事件還有一定的難度,只有進一步完善DCS系統故障的安全保護設計功能、加強DCS系統的運行維護和管理、認真落實《防止電力生產重大事故的二十五項重點要求》[5](充分做好包括DPU死機、通訊網絡崩潰在內的各種事故預想,將運行緊急處理措施、安全措施、技術措施、檢修步序編寫成冊,以便加快此類缺陷處理速度),才能夠減少因DCS運行異常造成的機組非計劃停運次數。
6)SOE是分析機組故障必不可少的工具,有關專業人員應該充分利用和掌握,經常對記錄資料進行分析,還可以發現設備潛在的隱患和操作上存在的問題,超前預防系統故障的發生。對SOE硬件配置不足的問題,建議有關發電企業進行整改和完善,使現場操作人員及負責事故分析的專業人士得以迅速判斷事故原因,了解事故過程,并為區別各種人為故障因素和非人為故障因素提供客觀依據。
7)隨著自動發電控制(AGC)在火電廠的廣泛應用,對發電廠運行與調度的自動化水平提出了更高的要求。但是,大型機組所特有的鍋爐容量大、機組負荷響應遲緩等特點,卻限制了AGC系統的整體調節速度,影響了電網的電能質量,成為了發、供電系統間的一個瓶頸。目前安徽電網大機組普遍運行情況是當AGC速率提高到2--3%額定負荷/min后機組主要運行參數(主汽溫度、主汽壓力等)調節品質很不理想,參數波動較大,對機組的安全穩定運行和電網頻率調整要求均產生了不利影響。盡管普遍采用了DCS進行監視和控制,從自動控制角度來說運行的并不理想,只是實現了常規的簡單控制,未能充分發揮DCS可實現復雜控制策略的優勢,造成資源浪費。因此在DCS中對機組自動調節系統應用先進控制策略和優化軟件包,提高發電鍋爐的控制水平,這已成為火電廠DCS領域迫切需要研究和應用的一個問題。
文章版權歸西部工控xbgk所有,未經許可不得轉載。