用于計(jì)算機(jī)輔助地控制和/或調(diào)節(jié)技術(shù)系統(tǒng)的方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及一種用于計(jì)算機(jī)輔助地控制和/或調(diào)節(jié)技術(shù)系統(tǒng)的方法以及一種相應(yīng)的計(jì)算機(jī)程序產(chǎn)品。
【背景技術(shù)】
[0002]經(jīng)常在計(jì)算機(jī)輔助的方法的基礎(chǔ)上調(diào)節(jié)復(fù)雜的技術(shù)系統(tǒng)、比如燃?xì)鉁u輪機(jī)或風(fēng)力渦輪機(jī),所述計(jì)算機(jī)輔助的方法在訓(xùn)練數(shù)據(jù)和相應(yīng)的優(yōu)化準(zhǔn)則的基礎(chǔ)上確定行動(dòng)選擇策略(英語(yǔ):Policy)。該行動(dòng)選擇策略指明,在所述系統(tǒng)的相應(yīng)的狀態(tài)中應(yīng)該在所述技術(shù)系統(tǒng)上實(shí)施何種行動(dòng)。由此比如可以實(shí)現(xiàn)以較高的效率來(lái)運(yùn)行所述技術(shù)系統(tǒng)。對(duì)于燃?xì)鉁u輪機(jī)來(lái)說(shuō),此外必要時(shí)可以降低燃燒室動(dòng)力或排放。對(duì)于風(fēng)力渦輪機(jī)來(lái)說(shuō),比如也可以對(duì)吊艙關(guān)于風(fēng)的定向進(jìn)行優(yōu)化。
[0003]為了確定相應(yīng)的、用于技術(shù)系統(tǒng)的行動(dòng)選擇策略,通常使用麻煩的回歸法、比如神經(jīng)網(wǎng)絡(luò)。但是,這些回歸法具有以下缺點(diǎn):它們產(chǎn)生復(fù)雜的行動(dòng)選擇策略,所述復(fù)雜的行動(dòng)選擇策略不再能夠被人類專家所解釋或理解。因此,缺乏可理解性的復(fù)雜的行動(dòng)選擇策略有時(shí)候不被使用在技術(shù)系統(tǒng)的運(yùn)行中。從現(xiàn)有技術(shù)中已知一些方法,利用這些方法來(lái)產(chǎn)生具有更小的復(fù)雜性的行動(dòng)選擇策略,比如方法是:通過(guò)具有較小規(guī)模的狀態(tài)來(lái)表示所述技術(shù)系統(tǒng)或者使用更加簡(jiǎn)單的回歸法。但是,這些方案經(jīng)常導(dǎo)致對(duì)于所述對(duì)技術(shù)系統(tǒng)的控制或調(diào)節(jié)來(lái)說(shuō)非最優(yōu)的行動(dòng)選擇策略。
【發(fā)明內(nèi)容】
[0004]因此,本發(fā)明的任務(wù)是,提供一種用于計(jì)算機(jī)輔助地控制和/或調(diào)節(jié)技術(shù)系統(tǒng)的方法,所述方法使用具有較小的復(fù)雜性的、較好地適合于所述技術(shù)系統(tǒng)的行動(dòng)選擇策略。
[0005]該任務(wù)通過(guò)獨(dú)立權(quán)利要求來(lái)解決。本發(fā)明的改進(jìn)方案在從屬權(quán)利要求中被闡明。
[0006]下面在步驟a)到c)的基礎(chǔ)上對(duì)根據(jù)本發(fā)明的方法進(jìn)行解釋。這些步驟的名稱僅僅用于更好參照其中所包含的特征,并且沒(méi)有規(guī)定實(shí)施的順序。特別地,特定的步驟也可以并行地實(shí)施或交織到彼此當(dāng)中。
[0007]根據(jù)本發(fā)明的方法用于計(jì)算機(jī)輔助地控制和/或調(diào)節(jié)技術(shù)系統(tǒng)。按照步驟a),就多個(gè)時(shí)刻而言所述技術(shù)系統(tǒng)的動(dòng)態(tài)行為分別以所述技術(shù)系統(tǒng)的狀態(tài)和在所述技術(shù)系統(tǒng)上所執(zhí)行的行動(dòng)為特征,其中在相應(yīng)的時(shí)刻的相應(yīng)的行動(dòng)引起所述技術(shù)系統(tǒng)在接下來(lái)的時(shí)刻的新的狀態(tài)。術(shù)語(yǔ)“狀態(tài)”或“行動(dòng)”在此要廣義地來(lái)理解。狀態(tài)特別地可以包括具有一個(gè)或多個(gè)狀態(tài)變量的狀態(tài)矢量。在相應(yīng)的(當(dāng)前的)時(shí)刻的狀態(tài)除了在當(dāng)前時(shí)刻的狀態(tài)矢量之外還可以可選地包括一個(gè)或多個(gè)在一個(gè)或多個(gè)先前的時(shí)刻的狀態(tài)矢量,由此對(duì)在有限的時(shí)間水平范圍內(nèi)的狀態(tài)的歷史加以考慮。同樣,行動(dòng)可以是由多個(gè)行動(dòng)變量構(gòu)成的矢量。
[0008]在根據(jù)本發(fā)明的方法的步驟b)中提供和/或產(chǎn)生(多個(gè))行動(dòng)選擇策略,其中相應(yīng)的行動(dòng)選擇策略至少根據(jù)所述技術(shù)系統(tǒng)在相應(yīng)的時(shí)刻的狀態(tài)指定在相應(yīng)的時(shí)刻有待在所述技術(shù)系統(tǒng)上執(zhí)行的行動(dòng),并且其中為每個(gè)行動(dòng)選擇策略分配了一個(gè)復(fù)雜性尺度,所述復(fù)雜性尺度描述了相應(yīng)的行動(dòng)選擇策略的復(fù)雜性,所述復(fù)雜性小于或者小于等于預(yù)先確定的復(fù)雜性閾值。所述復(fù)雜性尺度在此可以以不同的方式來(lái)定義,其中下面進(jìn)一步給出了這樣的復(fù)雜性尺度的實(shí)例。
[0009]在根據(jù)本發(fā)明的方法的步驟c)中,借助于對(duì)于評(píng)估尺度的計(jì)算從所提供的和/或所產(chǎn)生的行動(dòng)選擇策略中確定所提供的和/或所產(chǎn)生的行動(dòng)選擇策略的具有最高評(píng)估尺度的行動(dòng)選擇策略,其中所述評(píng)估尺度相應(yīng)地描述了行動(dòng)選擇策略用于對(duì)所述技術(shù)系統(tǒng)進(jìn)行調(diào)節(jié)和/或控制的適宜性。更高的評(píng)估尺度在此描述所述行動(dòng)選擇策略用于對(duì)技術(shù)系統(tǒng)進(jìn)行調(diào)節(jié)和/或控制的更好的適宜性。在特定的實(shí)施方式中,可以并行地或彼此交織地實(shí)施所述步驟b)和C)。比如可以首先產(chǎn)生特定的行動(dòng)選擇策略,并且隨后可以拋棄具有較差的評(píng)估尺度的行動(dòng)選擇策略的一部分。隨后又產(chǎn)生新的行動(dòng)選擇策略,并且以相同的方式又拋棄相應(yīng)的行動(dòng)選擇策略。特別地,在使用進(jìn)一步在下面描述的基因編程或粒子群優(yōu)化時(shí)所述步驟b)和c)交織在彼此當(dāng)中。
[0010]按照本發(fā)明,相應(yīng)的行動(dòng)選擇策略的、在步驟c)的范圍內(nèi)所計(jì)算的評(píng)估尺度可以取決于以下三個(gè)參量中的一個(gè)或多個(gè)參量:
-所述相應(yīng)的行動(dòng)選擇策略與預(yù)先給定的最佳的行動(dòng)選擇策略之間的距離尺度,其中減小的距離尺度表示更高的評(píng)估尺度,并且其中所述預(yù)先給定的最佳的行動(dòng)選擇策略優(yōu)選建立在神經(jīng)網(wǎng)絡(luò)(比如循環(huán)神經(jīng)網(wǎng)絡(luò))的基礎(chǔ)上;
-獎(jiǎng)勵(lì)尺度,在執(zhí)行所述相應(yīng)的行動(dòng)選擇策略時(shí)在對(duì)于所述技術(shù)系統(tǒng)的模擬中產(chǎn)生所述獎(jiǎng)勵(lì)尺度,其中更高的獎(jiǎng)勵(lì)尺度引起更高的評(píng)估尺度,并且其中所述模擬優(yōu)選建立在神經(jīng)網(wǎng)絡(luò)(比如循環(huán)神經(jīng)網(wǎng)絡(luò))的基礎(chǔ)上;
-用于所述相應(yīng)的行動(dòng)選擇策略的質(zhì)量尺度,借助于行動(dòng)選擇策略-評(píng)估方法(英語(yǔ):Policy Evaluat1n Method)來(lái)確定所述質(zhì)量尺度,其中更高的質(zhì)量尺度引起更高的評(píng)估尺度。
[0011]上面所描述的獎(jiǎng)勵(lì)尺度根據(jù)所述技術(shù)系統(tǒng)的運(yùn)行的、預(yù)先確定的最佳化準(zhǔn)則來(lái)確定,其中鑒于所述最佳化準(zhǔn)則更高的獎(jiǎng)勵(lì)尺度確定了對(duì)于所述技術(shù)系統(tǒng)的更好的控制或調(diào)節(jié)。在行動(dòng)選擇策略-評(píng)估方法的基礎(chǔ)上確定質(zhì)量尺度,這一點(diǎn)本身從現(xiàn)有技術(shù)中已知。特別地,已知不同種類的行動(dòng)選擇策略-評(píng)估方法。在一種優(yōu)選的實(shí)施方式中,使用“合適策略評(píng)估方法(Fitted Policy Evaluat1n Method),,(參見(jiàn)文獻(xiàn)[I])。
[0012]在步驟c)中確定所述行動(dòng)選擇策略之后,最后用該行動(dòng)選擇策略在步驟d)中對(duì)所述技術(shù)系統(tǒng)進(jìn)行調(diào)節(jié)和/或控制。
[0013]根據(jù)本發(fā)明的方法能夠用具有較小的復(fù)雜性的行動(dòng)選擇策略來(lái)對(duì)技術(shù)系統(tǒng)進(jìn)行調(diào)節(jié)或控制,另外所述行動(dòng)選擇策略通過(guò)確定合適的評(píng)估尺度保證所述技術(shù)系統(tǒng)的盡可能最佳的運(yùn)行。由于降低了所述行動(dòng)選擇策略的復(fù)雜性,所述行動(dòng)選擇策略能夠更為容易地被人所理解,從而更容易接受利用這種行動(dòng)選擇策略對(duì)所述技術(shù)系統(tǒng)進(jìn)行的計(jì)算機(jī)輔助的控制或調(diào)節(jié)。
[0014]在一種特別優(yōu)選的實(shí)施方式中,相應(yīng)地通過(guò)函數(shù)關(guān)系來(lái)表示所提供的或所產(chǎn)生的行動(dòng)選擇策略,所述函數(shù)關(guān)系至少基于所述技術(shù)系統(tǒng)在相應(yīng)的時(shí)刻的狀態(tài)提供有待在相應(yīng)的時(shí)刻執(zhí)行的行動(dòng)。術(shù)語(yǔ)“函數(shù)關(guān)系”在此應(yīng)該廣義地來(lái)理解,并且可以包括每種任意類型的函數(shù)或函數(shù)組合或數(shù)學(xué)表達(dá)式。特別地,所述函數(shù)關(guān)系可以包括可調(diào)節(jié)的參數(shù),其中通過(guò)對(duì)于相應(yīng)的參數(shù)值的確定來(lái)定義行動(dòng)選擇策略。
[0015]在根據(jù)本發(fā)明的方法中所使用的復(fù)雜性尺度可以通過(guò)不同的方式和方法來(lái)定義。不同的、用于確定復(fù)雜性尺度的方法在此從現(xiàn)有技術(shù)中已知(比如參見(jiàn)文獻(xiàn)[2])。在一種特別優(yōu)選的實(shí)施方式中,通過(guò)所述函數(shù)關(guān)系的描述長(zhǎng)度來(lái)表示所述復(fù)雜性尺度,其中所述描述長(zhǎng)度越小,根據(jù)所述復(fù)雜性尺度的復(fù)雜性就越小。所述描述長(zhǎng)度在一種特別優(yōu)選的實(shí)施方式中包括所述函數(shù)關(guān)系的二進(jìn)制表示或者ASCII表示的長(zhǎng)度和/或通過(guò)所述函數(shù)關(guān)系來(lái)表示的分析樹(shù)中的節(jié)點(diǎn)的數(shù)目和/或所述函數(shù)關(guān)系的可調(diào)節(jié)的參數(shù)的數(shù)目。在此,所述函數(shù)關(guān)系的二進(jìn)制表示或者ASCII表示的長(zhǎng)度越小或者說(shuō)所述分析樹(shù)中的節(jié)點(diǎn)的數(shù)目越小或者說(shuō)所述可調(diào)節(jié)的參數(shù)的數(shù)目越小,根據(jù)所述復(fù)雜性尺度的復(fù)雜性就越小。在此通過(guò)相應(yīng)的二進(jìn)制代碼或ASCII碼的長(zhǎng)度來(lái)表示所述二進(jìn)制表示或ASCII表示的長(zhǎng)度。從函數(shù)關(guān)系中編制分析樹(shù),這一點(diǎn)本身從現(xiàn)有技術(shù)中為人所知并且因此不作詳細(xì)解釋。
[0016]在根據(jù)本發(fā)明的方法的另一種變型方案中,在步驟b)中所提供的行動(dòng)選擇策略建立在專家知識(shí)的基礎(chǔ)上。也就是說(shuō),由專家來(lái)預(yù)先給定所述行動(dòng)選擇策略。這些行動(dòng)選擇策略被保存在存儲(chǔ)器中并且在所述方法的步驟b)中被讀出。
[0017]在根據(jù)本發(fā)明的方法的另一種特別優(yōu)選的變型方案中,借助于基因編程和/或在粒子群優(yōu)化的基礎(chǔ)上實(shí)施所述步驟b)和C)。在這些方法中,逐步地產(chǎn)生新的行動(dòng)選擇策略,并且將其添加到總體中,其中又將具有較差的評(píng)估尺度的行動(dòng)選擇策略從所述總體中拋棄。用于進(jìn)行基因編程或粒子群優(yōu)化的方法在現(xiàn)有技術(shù)中被充分公開(kāi),并且因此不再進(jìn)一步詳細(xì)描述。
[0018]在根據(jù)本發(fā)明的方法的另一種設(shè)計(jì)方案中,在步驟b)中如此產(chǎn)生所述行動(dòng)選擇策略,從而從預(yù)先確定的最佳的行動(dòng)選擇策略中推導(dǎo)出所述行動(dòng)選擇策略。所述預(yù)先確定的最佳的行動(dòng)選擇策略在此可以相當(dāng)于來(lái)自根據(jù)本發(fā)明的方法的步驟c)的、預(yù)先給定的最佳的行動(dòng)選擇策略。所述預(yù)先確定的最佳的行動(dòng)選擇策略通常具有相應(yīng)的復(fù)雜性尺度,所述復(fù)雜性尺度的復(fù)雜性顯著高于所述預(yù)先確定的復(fù)