本發(fā)明涉及天然氣輸送,具體涉及一種基于深度強(qiáng)化學(xué)習(xí)的天然氣管網(wǎng)優(yōu)化調(diào)度方法。
背景技術(shù):
1、目前,針對(duì)于天然氣輸送主要有兩種方式,其一為通過(guò)壓縮的方式將天然氣轉(zhuǎn)化為液化天然氣,通過(guò)輪渡進(jìn)行長(zhǎng)距離輸送;其二為建立天然氣管網(wǎng),并使天然氣從天然氣井端,經(jīng)由油氣田礦場(chǎng)集輸管網(wǎng)凈化和增壓輸氣干線(xiàn),將天然氣調(diào)度到城鎮(zhèn)或工業(yè)區(qū)等配氣管用戶(hù)端。針對(duì)于其二所述的輸送方式,需要構(gòu)建覆蓋空間足夠大的天然氣管網(wǎng),再根據(jù)配氣管用戶(hù)端的實(shí)際需求進(jìn)行天然氣調(diào)度。
2、其中,由于配氣管用戶(hù)端的天然氣需求量具有動(dòng)態(tài)變化的特點(diǎn);且天然氣輸送管網(wǎng)本身的工況復(fù)雜多變。為了滿(mǎn)足天然氣調(diào)度的生產(chǎn)時(shí)效性和天然氣輸送管網(wǎng)復(fù)雜多變的工況,傳統(tǒng)的天然氣管網(wǎng)調(diào)度方法是通過(guò)在線(xiàn)仿真系統(tǒng)和離線(xiàn)仿真軟件運(yùn)算后進(jìn)行天然氣調(diào)度,但其使用難度較高,運(yùn)算量巨大,實(shí)際效果有限?;诖?,探索一種更為科學(xué)高效的天然氣管網(wǎng)調(diào)度方法已經(jīng)成為行業(yè)的迫切需求。
3、隨著人工智能和機(jī)器學(xué)習(xí)的發(fā)展,強(qiáng)化學(xué)習(xí)作為一種重要的方法開(kāi)始被廣泛應(yīng)用于各類(lèi)問(wèn)題的解決中。強(qiáng)化學(xué)習(xí)通過(guò)智能體與環(huán)境的交互學(xué)習(xí),自動(dòng)尋找到優(yōu)化的控制策略,無(wú)需人工干預(yù)即可應(yīng)用于實(shí)時(shí)調(diào)度,展現(xiàn)出顯著的有效性與實(shí)用性。然而,這一方法在天然氣管網(wǎng)調(diào)度領(lǐng)域的應(yīng)用還面臨著一定的挑戰(zhàn),主要在于以下二個(gè)方面:
4、1、在面對(duì)天然氣用量的動(dòng)態(tài)變化及管網(wǎng)工況復(fù)雜的情況,因決策變量離散化而導(dǎo)致調(diào)度結(jié)果精確度差;
5、2、現(xiàn)有的管網(wǎng)調(diào)度模型在訓(xùn)練時(shí),由于合適的訓(xùn)練步長(zhǎng)難以確定,不利于模型訓(xùn)練及機(jī)器學(xué)習(xí),訓(xùn)練難度大耗時(shí)長(zhǎng)
技術(shù)實(shí)現(xiàn)思路
1、一、解決的技術(shù)問(wèn)題
2、本發(fā)明意在提供一種基于深度強(qiáng)化學(xué)習(xí)的天然氣管網(wǎng)優(yōu)化調(diào)度方法,以解決目前天然氣調(diào)度和深度學(xué)習(xí)結(jié)合形成的調(diào)度方法,在面對(duì)離散化的連續(xù)型決策變量時(shí),出現(xiàn)的調(diào)度結(jié)果不精確,調(diào)度過(guò)程經(jīng)濟(jì)性差,和模型訓(xùn)練速度慢、耗時(shí)長(zhǎng)的問(wèn)題。
3、二、具體技術(shù)方案
4、一種基于深度強(qiáng)化學(xué)習(xí)的天然氣管網(wǎng)優(yōu)化調(diào)度方法,包括以下步驟:
5、步驟s1、建立天然氣管網(wǎng)調(diào)度模型,并將天然氣管網(wǎng)調(diào)度模型轉(zhuǎn)化為具有管網(wǎng)仿真環(huán)境和合理獎(jiǎng)勵(lì)函數(shù)的馬爾科夫決策過(guò)程模型;
6、步驟s2、搭建天然氣管網(wǎng)調(diào)度模型對(duì)應(yīng)的強(qiáng)化學(xué)習(xí)智能體離線(xiàn)訓(xùn)練環(huán)境;
7、步驟s3、構(gòu)建近端策略?xún)?yōu)化算法中的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),其中神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)為演員-評(píng)論家神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu);
8、步驟s4、利用近端策略?xún)?yōu)化算法對(duì)強(qiáng)化學(xué)習(xí)智能體進(jìn)行訓(xùn)練;
9、步驟s5、利用訓(xùn)練完成的強(qiáng)化學(xué)習(xí)智能體實(shí)時(shí)獲得天然氣管網(wǎng)調(diào)度的最優(yōu)策略,并基于獲得的天然氣管網(wǎng)調(diào)度的最優(yōu)策略對(duì)天然氣管網(wǎng)進(jìn)行實(shí)時(shí)調(diào)度。
10、實(shí)現(xiàn)原理、工作原理:
11、1、本方案采用馬爾科夫決策過(guò)程模型作為天然氣管網(wǎng)調(diào)度模型,能夠通過(guò)馬爾科夫決策過(guò)程模型的強(qiáng)化學(xué)習(xí)智能體根據(jù)天然氣生產(chǎn)過(guò)程的狀態(tài)變量對(duì)天然氣管網(wǎng)給出適配的調(diào)度策略,根據(jù)此策略能夠?qū)μ烊粴夤芫W(wǎng)的各個(gè)環(huán)節(jié)進(jìn)行精準(zhǔn)控制,經(jīng)濟(jì)合理,且更具有實(shí)時(shí)性。
12、2、采用近端策略?xún)?yōu)化算法對(duì)馬爾科夫決策模型的強(qiáng)化學(xué)習(xí)智能體訓(xùn)練,近端策略?xún)?yōu)化算法通過(guò)收集管網(wǎng)執(zhí)行調(diào)度策略時(shí)的狀態(tài)參數(shù)、動(dòng)作參數(shù)和獎(jiǎng)勵(lì)參數(shù)并進(jìn)行學(xué)習(xí),能夠?qū)Υ水?dāng)前策略的執(zhí)行進(jìn)行評(píng)估,有利于強(qiáng)化學(xué)習(xí)智能體根據(jù)天然氣管網(wǎng)的動(dòng)作給出最佳控制策略,對(duì)管網(wǎng)的控制更加合理;同時(shí),在每次策略迭代時(shí)可以采用相同的數(shù)據(jù)進(jìn)行更新,提高了數(shù)據(jù)的利用效率。
13、3、采用近端策略?xún)?yōu)化算法進(jìn)行訓(xùn)練,能夠提供為強(qiáng)化智能體的學(xué)習(xí)提供合適的訓(xùn)練步長(zhǎng),使得學(xué)習(xí)過(guò)程更加穩(wěn)定;降低了強(qiáng)化學(xué)習(xí)智能體的學(xué)習(xí)難度,有效的縮短了強(qiáng)化學(xué)習(xí)智能體訓(xùn)練時(shí)長(zhǎng);同時(shí)該算法在強(qiáng)化學(xué)習(xí)智能體訓(xùn)練的各個(gè)步驟中能夠?qū)崿F(xiàn)小批量更新,有利于強(qiáng)化學(xué)習(xí)智能體的訓(xùn)練和學(xué)習(xí),且使得訓(xùn)練完成的強(qiáng)化學(xué)習(xí)智能體的穩(wěn)定性和適應(yīng)性更強(qiáng)。
14、作為優(yōu)選:步驟s1中所述的天然氣管網(wǎng)包括氣井多個(gè)、脫水站、增壓站和凈化站,其中一個(gè)脫水站與多個(gè)氣井相連接;所述天然氣管網(wǎng)調(diào)度模型包括目標(biāo)函數(shù),其中目標(biāo)函數(shù)用于計(jì)算天然氣產(chǎn)量最大值,目標(biāo)函數(shù)計(jì)算公式為:
15、mmax=x1h1+x2h2+…+xmhm
16、其中,mmax表示m個(gè)氣井的天然氣產(chǎn)量最大值;x1代表第m個(gè)的氣井開(kāi)關(guān)狀態(tài),取值為0或1;hm表示第m個(gè)氣井的產(chǎn)量;通過(guò)對(duì)各個(gè)氣井的工作情況及產(chǎn)量進(jìn)行綜合考慮,有利于管網(wǎng)的統(tǒng)籌調(diào)度,合理精確。
17、作為優(yōu)選:步驟s1中,所述的天然氣管網(wǎng)調(diào)度模型還包括約束條件,所述約束條件包括脫水站約束、增壓站約束和凈化站約束;脫水站約束包括脫水站處理量約束和脫水站硫濃度約束;
18、從第k個(gè)脫水站和第n個(gè)氣井開(kāi)始,脫水站的最大處理量約束的計(jì)算公式為:
19、0≤xnhn+xn+1hn+1+…+xn+t-1hn+t-1≤tk??(1)
20、從第k個(gè)脫水站和第n個(gè)氣井開(kāi)始,脫水站硫濃度約束的計(jì)算公式為:
21、
22、增壓站約束:第k個(gè)增壓站從第l個(gè)氣井開(kāi)始,包含z個(gè)氣井,增壓站對(duì)z個(gè)氣井的處理量必須有最大值和最小值,若低于最小值,所有氣井需要關(guān)閉,增壓站約束的計(jì)算公式為:
23、
24、凈化廠(chǎng)約束:設(shè)第k個(gè)凈化廠(chǎng)從第d個(gè)增壓站開(kāi)始,包含j個(gè)增壓站,凈化廠(chǎng)要求j個(gè)增壓站的處理量必須有最大值和最小值,且凈化廠(chǎng)約束計(jì)算公式為:
25、
26、其中式(1)、(2)、(3)、(4)中t為氣井?dāng)?shù)量,tk為第k個(gè)脫水站的最大處理量,xn+t-1、xl+z-1、xd+j-1為對(duì)應(yīng)氣井的開(kāi)關(guān)狀態(tài),hn+t-1、hl+z-1、hd+j-1為對(duì)應(yīng)氣井的天然氣生產(chǎn)量,pn為第n個(gè)脫水站的硫濃度限制,pk為第k個(gè)脫水站最大硫濃度限值,其中,表示第k個(gè)增壓站的最小處理量,表示第k個(gè)增壓站的最大處理量;表示第k個(gè)凈化廠(chǎng)的最小處理量,表示第k個(gè)凈化廠(chǎng)的最大處理量;通過(guò)管網(wǎng)的結(jié)構(gòu)分析,并設(shè)置上述的約束條件,有利于為天然氣管網(wǎng)調(diào)度模型提供適宜的參數(shù)進(jìn)行仿真訓(xùn)練,也為天然氣管網(wǎng)調(diào)度模型的各個(gè)參數(shù)提供適宜的取值范圍。
27、作為一種優(yōu)選,所述天然氣管網(wǎng)調(diào)度模型的約束條件公式為:
28、
29、其中,本公式中的參數(shù)含義與式(1)、(2)、(3)、(4)一致。
30、作為優(yōu)選,步驟s1中天然氣管網(wǎng)調(diào)度模型轉(zhuǎn)化為具有管網(wǎng)仿真環(huán)境和合理獎(jiǎng)勵(lì)函數(shù)的馬爾科夫決策過(guò)程模型的具體步驟包括,
31、s1.1構(gòu)建t時(shí)刻天然氣管網(wǎng)的最優(yōu)調(diào)度狀態(tài)變量,其中最優(yōu)調(diào)度狀態(tài)變量s的公式為:
32、s={xn,t、pn,t、hn,t、yk,t、t}
33、其中xn,t為t時(shí)刻第n個(gè)油氣井的開(kāi)關(guān)狀態(tài),pn,t為t時(shí)刻第n個(gè)油氣井的硫濃度,hn,t為t時(shí)刻第n個(gè)油氣井的產(chǎn)氣量,yk,t為t時(shí)刻第k個(gè)增壓站的運(yùn)行狀態(tài);
34、s1.2構(gòu)建t時(shí)刻天然氣管網(wǎng)的最優(yōu)調(diào)度動(dòng)作變量,其中最優(yōu)調(diào)度動(dòng)作變量a的公式為:
35、a={xn,t、hn,t、yk,t}
36、s1.3構(gòu)建t時(shí)刻天然氣管網(wǎng)的最優(yōu)調(diào)度獎(jiǎng)勵(lì)函數(shù),其中最優(yōu)調(diào)度獎(jiǎng)勵(lì)函數(shù)的公式為:
37、
38、其中,rt、rp、rz、rj分別為脫水站處理量越限系數(shù)、硫濃度越限系數(shù)、增壓站處理量越限系數(shù)、凈化廠(chǎng)處理量越限系數(shù),βt、βp、βz、βj分別為前述個(gè)系數(shù)所對(duì)應(yīng)的權(quán)重,cproduction為天然氣產(chǎn)量,w為產(chǎn)量系數(shù)。
39、作為優(yōu)選,步驟s2的離線(xiàn)環(huán)境為openai?gym環(huán)境,所述離線(xiàn)環(huán)境包括線(xiàn)性方程求解器,還包括初始化功能模塊、交互模塊和獎(jiǎng)勵(lì)計(jì)算模塊;所述初始化功能模塊包括初始化函數(shù),所述初始化函數(shù)通過(guò)運(yùn)行所述線(xiàn)性方程求解器進(jìn)行天然氣調(diào)度案例初始化,并輸出初始狀態(tài);所述交互模塊包括step函數(shù),所述step函數(shù)根據(jù)所述強(qiáng)化學(xué)習(xí)智能體的動(dòng)作運(yùn)行線(xiàn)性方程求解器,并向強(qiáng)化學(xué)習(xí)智能體提供結(jié)果狀態(tài)、“完成”信號(hào)以及相應(yīng)的獎(jiǎng)勵(lì)。
40、作為優(yōu)選,s3.1構(gòu)建天然氣管網(wǎng)對(duì)應(yīng)的強(qiáng)化學(xué)習(xí)智能體的演員神經(jīng)網(wǎng)絡(luò),演員神經(jīng)網(wǎng)絡(luò)的輸入狀態(tài)變量為s,輸出為動(dòng)作變量a;
41、s3.2構(gòu)建天然氣管網(wǎng)對(duì)應(yīng)的強(qiáng)化學(xué)習(xí)智能體的評(píng)論家神經(jīng)網(wǎng)絡(luò),輸入為狀態(tài)變量s,輸出為狀態(tài)價(jià)值函數(shù)vπ(s),其中,vπ(s)=e(rt|st=s;π),式中e(x)為期望計(jì)算函數(shù),vπ是狀態(tài)價(jià)值函數(shù),rt表示步長(zhǎng)t中累計(jì)返回的總獎(jiǎng)勵(lì),st為t時(shí)刻的狀態(tài),π表示一個(gè)行動(dòng)策略。
42、作為優(yōu)選,步驟s4中強(qiáng)化學(xué)習(xí)智能體的訓(xùn)練步驟包括:
43、s4.1:初始化近端策略?xún)?yōu)化算法的超參數(shù),初始化評(píng)論家神經(jīng)網(wǎng)絡(luò)的權(quán)值;
44、s4.2:通過(guò)深度學(xué)習(xí)對(duì)演員神經(jīng)網(wǎng)絡(luò)進(jìn)行模仿學(xué)習(xí)(il),將模仿學(xué)習(xí)的訓(xùn)練結(jié)果加載為演員神經(jīng)網(wǎng)絡(luò)的初始權(quán)值;
45、s4.3:讀取訓(xùn)練數(shù)據(jù)集用于強(qiáng)化學(xué)習(xí)智能體的深度強(qiáng)化學(xué)習(xí)訓(xùn)練;
46、s4.4:對(duì)訓(xùn)練數(shù)據(jù)集的每個(gè)輪次進(jìn)行洗牌;
47、s4.5:從訓(xùn)練數(shù)據(jù)集中獲取數(shù)據(jù)的批量處理大小;
48、s4.6:將智能體作用于離線(xiàn)環(huán)境,并收集軌跡;
49、s4.7:分別訓(xùn)練演員神經(jīng)網(wǎng)絡(luò)與評(píng)論家神經(jīng)網(wǎng)絡(luò),并通過(guò)收集到的軌跡計(jì)算總獎(jiǎng)勵(lì)函數(shù)、動(dòng)作價(jià)值函數(shù)以及廣義優(yōu)勢(shì)估計(jì)函數(shù);
50、s4.8:利用adam優(yōu)化器最大化目標(biāo)函數(shù);
51、s4.9:重復(fù)s4.4到s4.8,直至達(dá)到設(shè)定的強(qiáng)化學(xué)習(xí)智能體訓(xùn)練輪次的上限,得到離線(xiàn)訓(xùn)練完成的強(qiáng)化學(xué)習(xí)智能體。
52、作為優(yōu)選,在步驟s4.2中通過(guò)深度學(xué)習(xí)對(duì)演員神經(jīng)網(wǎng)絡(luò)進(jìn)行模仿學(xué)習(xí),將模仿學(xué)習(xí)的訓(xùn)練結(jié)果加載為演員神經(jīng)網(wǎng)絡(luò)的初始權(quán)值,包括以下步驟:
53、s4.2.1、通過(guò)對(duì)訓(xùn)練數(shù)據(jù)集離線(xiàn)運(yùn)行求解器獲得最優(yōu)調(diào)度,并設(shè)置為“專(zhuān)家”動(dòng)作;
54、s4.2.2、將所得到的“專(zhuān)家”動(dòng)作以及其所對(duì)應(yīng)的狀態(tài)作為組合應(yīng)用于模仿學(xué)習(xí),其中輸入是狀態(tài)變量,標(biāo)簽是“專(zhuān)家”動(dòng)作,采用下式作為損失函數(shù):
55、
56、其中dtrain為訓(xùn)練數(shù)據(jù)集,nil為數(shù)據(jù)集大小,at、st分別代表t時(shí)刻的“專(zhuān)家”動(dòng)作與其所對(duì)應(yīng)狀態(tài),通過(guò)隨機(jī)梯度下降等一階優(yōu)化器,訓(xùn)練近端策略?xún)?yōu)化算法智能體中隨機(jī)策略πθ的初始均值μθ(s);
57、s4.2.3、從求解器的結(jié)果克隆出最優(yōu)天然氣管網(wǎng)調(diào)度設(shè)置;再將模仿學(xué)習(xí)的結(jié)果作為演員神經(jīng)網(wǎng)絡(luò)的初始權(quán)重。
58、與現(xiàn)有技術(shù)相比,本方案具有的有益效果是:
59、1、將管網(wǎng)調(diào)度模型轉(zhuǎn)化為馬爾科夫決策模型,在進(jìn)行馬爾科夫決策模型訓(xùn)練時(shí),采用近端策略?xún)?yōu)化算法對(duì)馬爾科夫決策模型的強(qiáng)化學(xué)習(xí)智能體進(jìn)行訓(xùn)練,在訓(xùn)練時(shí),采用近端策略算法能夠保證訓(xùn)練步長(zhǎng)合適,降低強(qiáng)化學(xué)習(xí)智能體的學(xué)習(xí)難度,有效的縮短了強(qiáng)化學(xué)習(xí)智能體訓(xùn)練時(shí)長(zhǎng)。
60、2、在進(jìn)行馬爾科夫決策模型的強(qiáng)化學(xué)習(xí)智能體的訓(xùn)練時(shí),通過(guò)約束條件,及對(duì)應(yīng)時(shí)刻的最優(yōu)調(diào)度變量和最優(yōu)調(diào)度獎(jiǎng)勵(lì)函數(shù)進(jìn)行訓(xùn)練,涵蓋各個(gè)時(shí)段的最優(yōu)調(diào)整策略,在面對(duì)離散化的連續(xù)決策變量時(shí),也能夠保證調(diào)度精確性。
61、3、且通過(guò)模仿學(xué)習(xí)(il)技術(shù)對(duì)獲得的數(shù)據(jù)進(jìn)行預(yù)處理,能夠在深度強(qiáng)化學(xué)習(xí)過(guò)程中達(dá)到更高的學(xué)習(xí)效率。