稱作獎勵(Reward)),并且行動序列&的所有 評價標準的折扣加權總和是質量標準RE。折扣因子γ隨著與當前的時間點t間距越大變得 越來越小,使得繼續(xù)地在將來存在的評價標準以較小的權重注入質量標準中。所述評價標 準按照用于運行技術系統的所期望的優(yōu)化準則被確定。相應的評價標準的規(guī)格對于專業(yè)人 員充分已知或者處于專業(yè)人員業(yè)務(Handeln)范圍中。
[0034] 在一種優(yōu)選的實施方式中,與事件視界T有關的因子γ在上述方程式(1)中使用, 所述因子如下被定義:
在此q是固定的值,其中〇<q<l。由此所述評價標準r(sl)、也即用于第一行動的評價 標準完全地注入所述質量標準RE,而用于置于在將來最遠的狀態(tài)r(sT)的評價標準以因子q 打折扣。發(fā)明人已經使用值q=5%=0.05。
[0035] 在粒子群優(yōu)化的范圍內,迭代地基于預先給定數量的迭代步驟(所述迭代步驟此 外在下面用索引m指定)對于每個粒子i通過迭代地更新的速度向量確定行動序列Ai,對于 所述行動序列于是通過遞歸神經網絡RNN和通過計算RC確定質量標準RE,所述質量標準RE 作為適應度注入粒子群優(yōu)化,并且導致速度向量的計算和從而導致用于下一迭代步驟的各 自粒子的行動序列。在經歷所有的迭代后,通過粒子群優(yōu)化輸出最佳的行動序列,所述最佳 的行動序列在圖1中用A表示。在這里描述的實施方式中,所述最佳的行動序列A的第一行動 a=a(0)在技術系統處被實施。這在技術系統中導致在新的當前時間點t的新的狀態(tài)s。所述 狀態(tài)于是再次基于圖1的方法被處理,以便由此確定下一行動,所述行動在技術系統處被實 施。
[0036 ]圖1的方法可以在5秒或者更少的短的計算時間中輸出適當的要實施的行動。由發(fā) 明人所執(zhí)行的模擬在此已經表明,所計算的行動導致高的質量標準,并且因此導致對通過 質量標準指定的優(yōu)化準則的良好的滿足。在此有利的是,可以以簡單的方式改變質量標準 或者其計算。在一種特別優(yōu)選的實施方式中,在使用圖1的方法時,也可以在技術系統處設 置用戶接口,利用所述用戶接口,用戶可以在線地在改變技術系統的運行條件時相應地適 配所述質量標準。
[0037] 以下描述在圖1中所使用的粒子群優(yōu)化PS0的優(yōu)選變型方案。粒子群優(yōu)化的算法通 常是基于群體的非凸隨機優(yōu)化啟發(fā)學。在此粒子群的大量粒子被觀察,其中各自的粒子表 示所觀察的問題的可能的解。在這里描述的實施方式中,要確定的最佳的行動序列Ai形式 的潛在的解分配給每個粒子。所述粒子迭代地穿越多維的搜索空間,所述搜索空間也被稱 作適應度景觀。在每個運動后,每個粒子獲得其新位置的適應度值,其中將所述適應度值與 其先前的最好的適應度值比較。在粒子群優(yōu)化中使用的適應度值在上面已經被定義。粒子 的位置在此對應于在相應的迭代步驟中確定的行動序列M。
[0038] 作為粒子群優(yōu)化的結果,具有最好的適應度的位置(以及因此所述行動序列)被輸 出,所述最好的適應度曾經由在其鄰近的粒子發(fā)現。所述鄰近在此以適當的方式通過拓撲 結構被確定,并且為各自的粒子指定相應的相鄰粒子。在其處粒子獲得最高的適應度值的 位置被稱作粒子的最好的(自己的)位置。與此相對地,在其處任意粒子在各自粒子的鄰近 (包括各自的粒子自身)中獲得最高的適應度值的位置被稱作最好的鄰近位置。
[0039] 每個粒子明確地通過索引i被標識,所述索引對于由N粒子構成的群從i=l運行至i =N。在此xi(m)表示粒子i的位置,并且因此對于迭代步驟m表示相應的行動序列Ai,其中在所 述粒子群優(yōu)化中,預先確定數量的迭代步驟被執(zhí)行。各自粒子的自己的最好位置在算法中 對于迭代步驟m如下被計算:
是nx維搜索空間的在上面已經定義的適應度函數,其中技術系統在 當前的時間點的狀態(tài)s被預先給定。參量yi(m)對應于來自圖1的行動序列Ai。在開始粒子群 優(yōu)化時,每個粒子的位置隨機地被確定并且同樣也是自己的最好位置。
[0040] 按照鄰近的上述拓撲結構,所述粒子表示節(jié)點,所述節(jié)點通過邊彼此連接,其中各 自粒子的鄰近包含所述粒子自身以及所有其它粒子,所述其它粒子直接地通過邊與所述各 自粒子連接。所述拓撲結構在此可以以不同的方式被定義。圖2示出以具有7個粒子的粒子 群為例在粒子群優(yōu)化中可使用的拓撲結構的不同變型方案。在此星形拓撲結構ST以及環(huán)形 拓撲結構的兩個變型方案RT1和RT2被示出。各個粒子在此對應于各自的節(jié)點,所述節(jié)點表 示為圓圈,其中示例性地第N個粒子的鄰近被強調。所述節(jié)點通過邊K彼此連接,其中出于清 楚性原因在每個拓撲結構中僅用附圖標記K標出兩個邊。與相應的粒子直接地通過邊K連接 的所有節(jié)點表示相應的粒子的鄰近粒子。按照星型拓撲結構,在此每個粒子與每個其它的 粒子連接,然而在環(huán)形拓撲結構RT1中,各自粒子具有四個鄰近粒子,并且在所述環(huán)形拓撲 結構RT2中,各自的粒子僅具有兩個鄰近粒子。必要時,在按照圖1的粒子群優(yōu)化中也可以使 用更復雜的拓撲結構。
[0041] 粒子i的鄰近按照上面的描述被定義為: 蛑& 粒子i和粒子k通過拓撲結構的邊連接}。
[0042]在粒子群優(yōu)化的范圍內,所述粒子將其自己的最好位置傳送給在其鄰近中的所有 粒子。從中每個粒子如下確定最好的鄰近位置:
接著所述粒子基于此外在下面描述的速度確定其位置更新,并且根據所述位置更新運 動。用于下一迭代步驟的速度于是被確定為在各自粒子的(自己的)最好位置和最好的鄰近 位置之間的隨機折衷。
[0043] 用于每個迭代步驟的位置的變化通過將速度向量v-Jm)相加到各自粒子的位置上 被執(zhí)行,而且基于以下方程式被執(zhí)行:
在此,所述方法利用各自的粒子位置Xl(〇)被初始化,所述粒子位置^(〇)均勻分布地 位于事先確定的極限Xmin和Xmax之間,也即識乂適用。
[0044] 所述速度向量Vi(m)不僅包含認知分量而且包含社交分量(soziale Komponente),并且促進算法的優(yōu)化過程。在此vij(m)表示對于迭代步驟m在維度j=l,…,n x 中粒子i的速度,其中j代表在行動序列的所有行動上的行動變量(和從而事件視界T)的索 弓丨。所述變量是對于迭代步驟m在維度j中粒子i的位置,并且因此對應于行動序列的 行動變量的值。參量(^和(3 2是正的加速度常數,所述加速度常數被使用用于縮放 (51^1161'111^)認知分量和社交分量的貢獻。例如可以使用(31=〇2=1.49618。變量1'1」(111)、印 (m)~U(0,1)是范圍[0,1]中的隨機值,所述隨機值由均勻分布推斷出,以便在算法中導入隨 機兀素。
[0045] 來自方程式(5)的常數因子w表示慣性權重(英語為:inertia weight)(也見出版 物[5])。所述慣性權重w控制:先前迭代的速度的多少記憶(GedSchtnis)應當影響新的速 度。所述因子w通常配備有來自范圍[0,1]的固定的值。在特別優(yōu)選的變型方案中選擇w= 0.7298。具有w=l的粒子群優(yōu)化也可以被解釋為沒有慣性權重的粒子群優(yōu)化。
[0046]此外,"速度夾緊(Velocity Clamping)"被使用(也見出版物[4])。在此,所述速度 在維度j中的特定最大值Vmax, j處被切斷。換句話說,粒子i的速度如以下被適配:
優(yōu)選地所述最大值Vmax>j這樣地被確定,使得所述最大值為相應維度j的位置波動的可 供使用的總范圍的10%,也即適用的是:
必要時,粒子群優(yōu)化也可以在沒有速度夾緊的情況下被執(zhí)行。在該情況下,適用的是:
對于粒子群優(yōu)化的算法,在這里描述的實施方式中,預先給出預先確定數量的迭代。如 果所述數量被達到,則作為結果從