1.一種基于深度強(qiáng)化學(xué)習(xí)算法的無人帆船控制方法,其特征在于,包括:
2.根據(jù)權(quán)利要求1所述的一種基于深度強(qiáng)化學(xué)習(xí)算法的無人帆船控制方法,其特征在于,所述神經(jīng)網(wǎng)絡(luò)模型包括第一critic網(wǎng)絡(luò)、第二critic網(wǎng)絡(luò)和actor網(wǎng)絡(luò),所述第一critic網(wǎng)絡(luò)和第二critic網(wǎng)絡(luò)用以分別根據(jù)當(dāng)前的狀態(tài)量和動(dòng)作量輸出一個(gè)q值,所述q值用于對(duì)actor網(wǎng)絡(luò)的決策產(chǎn)生影響,所述actor網(wǎng)絡(luò)用以根據(jù)當(dāng)前的狀態(tài)量、所述q值輸出舵角和帆角的均值及標(biāo)準(zhǔn)差。
3.根據(jù)權(quán)利要求2所述的一種基于深度強(qiáng)化學(xué)習(xí)算法的無人帆船控制方法,其特征在于,所述第一critic網(wǎng)絡(luò)包括第一輸入模塊和第二輸入模塊,所述第一輸入模塊和第二輸入模塊分別用以接收輸入的當(dāng)前的狀態(tài)量和動(dòng)作量,所述第一輸入模塊和第二輸入模塊分別與第一全連接模塊和第二全連接模塊連接,所述第一全連接模塊和第二全連接模塊均使用256個(gè)神經(jīng)元分別與狀態(tài)量和動(dòng)作量全連接,以分別生成256個(gè)特征,所述第一全連接模塊和第二全連接模塊均與拼接模塊連接,所述拼接模塊用以將狀態(tài)量和動(dòng)作量的特征進(jìn)行串聯(lián),以形成512個(gè)特征組合,且其與第一激活模塊、第三全連接模塊、第二激活模塊和第四全連接模塊依次串聯(lián)連接,所述第一激活模塊用以對(duì)串聯(lián)后的特征進(jìn)行激活,以產(chǎn)生512個(gè)非負(fù)特征并傳入第三全連接模塊,所述第三全連接模塊用以采用256個(gè)神經(jīng)元與512個(gè)特征全連接,以獲得256個(gè)高級(jí)特征表示狀態(tài)量特征與動(dòng)作量特征之間的高級(jí)特征關(guān)系,所述第二激活模塊用以對(duì)第三全連接模塊輸出的高級(jí)特征進(jìn)行激活,以根據(jù)256個(gè)高級(jí)特征產(chǎn)生256個(gè)非負(fù)特征,所述第四全連接模塊用以根據(jù)第二激活模塊產(chǎn)生的256個(gè)非負(fù)特征計(jì)算獲得q值。
4.根據(jù)權(quán)利要求3所述的一種基于深度強(qiáng)化學(xué)習(xí)算法的無人帆船控制方法,其特征在于,所述第二critic網(wǎng)絡(luò)與第一critic網(wǎng)絡(luò)的結(jié)構(gòu)相同,但其第一全連接模塊和第二全連接模塊均使用128個(gè)神經(jīng)元生成相應(yīng)的特征。
5.根據(jù)權(quán)利要求3所述的一種基于深度強(qiáng)化學(xué)習(xí)算法的無人帆船控制方法,其特征在于,所述actor網(wǎng)絡(luò)包括第三輸入模塊,所述第三輸入模塊用以接收輸入的當(dāng)前的狀態(tài)量,且其與第五全連接模塊連接,所述第五全連接模塊使用256個(gè)神經(jīng)元與狀態(tài)量全連接,以生成256個(gè)特征,且其與第三激活模塊連接,所述第三激活模塊用以對(duì)第五全連接模塊輸出的特征進(jìn)行激活,以產(chǎn)生256個(gè)非負(fù)特征并分別傳入第六全連接模塊和第七全連接模塊;
6.根據(jù)權(quán)利要求1所述的一種基于深度強(qiáng)化學(xué)習(xí)算法的無人帆船控制方法,其特征在于,還包括:基于狀態(tài)誤差卡爾曼濾波算法實(shí)現(xiàn)對(duì)系統(tǒng)狀態(tài)的動(dòng)態(tài)估計(jì)和修正。
7.根據(jù)權(quán)利要求1所述的一種基于深度強(qiáng)化學(xué)習(xí)算法的無人帆船控制方法,其特征在于,所述神經(jīng)網(wǎng)絡(luò)模型通過以下方式訓(xùn)練:
8.根據(jù)權(quán)利要求7所述的一種基于深度強(qiáng)化學(xué)習(xí)算法的無人帆船控制方法,其特征在于,所述模擬風(fēng)速函數(shù)和模擬風(fēng)向函數(shù)分別為: