午夜毛片免费看,老师老少妇黄色网站,久久本道综合久久伊人,伊人黄片子

VoQ實現(xiàn)方法、設(shè)備及可讀存儲介質(zhì)與流程

文檔序號:39725995發(fā)布日期:2024-10-22 13:25閱讀:2來源:國知局
VoQ實現(xiàn)方法、設(shè)備及可讀存儲介質(zhì)與流程

本申請實施例涉及通信,具體涉及一種voq實現(xiàn)方法、設(shè)備及可讀存儲介質(zhì)。


背景技術(shù):

1、在人工智能(artificial?intelligence,ai)大模型訓(xùn)練場景下,ai大模型訓(xùn)練流程中通常包含數(shù)據(jù)并行、流水線并行及張量并行等多種并行計算模式,不同并行模式下均需要多個計算設(shè)備間進(jìn)行集合通信操作,存在大量map-reduce(一對多、多對多)流量模型,易發(fā)生擁塞,從而導(dǎo)致時延、抖動增加,嚴(yán)重影響分布式訓(xùn)練的質(zhì)量和速度。業(yè)界提出端到端虛擬輸出隊列(virtual?output?queue,voq)+信用(credit)調(diào)度控制機(jī)制,每臺流量的接入設(shè)備(例如,圖1中的a1、a2和a3)建立網(wǎng)絡(luò)中所有出口的虛擬隊列(queue),用以模擬本設(shè)備到對應(yīng)端口(例如,端口1、端口2和端口3)的流量調(diào)度,然后本設(shè)備對這個voq的調(diào)度帶寬可以達(dá)到多少通過授權(quán)請求和回復(fù)確定,由最終的設(shè)備出口來統(tǒng)一全網(wǎng)授權(quán)。

2、在ai大模型萬級圖形處理器(graphics?processing?unit,gpu)集群規(guī)模下,voq規(guī)格和gpu數(shù)量、gpu出接口數(shù)、業(yè)務(wù)優(yōu)先級數(shù)成正比,按照2000臺服務(wù)器,每服務(wù)器8個gpu,每gpu出一個端口,業(yè)務(wù)占用2個優(yōu)先級計算,每個接入設(shè)備需要建立32k?voq。流量的接入設(shè)備voq規(guī)格和高速內(nèi)存(high-speed?memory,hsm)大小有關(guān),成本較高。因此,隨著ai大模型參數(shù)量增加,gpu集群規(guī)模增大,流量的接入設(shè)備的voq規(guī)格需求也會增大,而流量的接入設(shè)備voq規(guī)格需求的增加會成為影響ai大模型訓(xùn)練業(yè)務(wù)的瓶頸。


技術(shù)實現(xiàn)思路

1、本申請實施例在于提供一種voq實現(xiàn)方法、設(shè)備及可讀存儲介質(zhì),解決如何減少流量的接入設(shè)備voq規(guī)格需求的問題。

2、第一方面,提供一種voq實現(xiàn)方法,應(yīng)用于業(yè)務(wù)側(cè)設(shè)備,包括:

3、向網(wǎng)絡(luò)控制器發(fā)送第一信息,所述第一信息用于指示所述網(wǎng)絡(luò)控制器創(chuàng)建目標(biāo)gpu間的通信對應(yīng)的voq,所述目標(biāo)gpu是有通信需求的gpu。

4、可選的,向網(wǎng)絡(luò)控制器發(fā)送第一信息之前,所述方法還包括:

5、根據(jù)mpi通信庫,確定所述目標(biāo)gpu,所述mpi通信庫中保存有通信需求的gpu的信息。

6、可選的,所述第一信息包括以下至少之一:目標(biāo)gpu標(biāo)識集、業(yè)務(wù)優(yōu)先級。

7、可選的,在向網(wǎng)絡(luò)控制器發(fā)送第一信息之后,所述方法還包括:

8、接收所述網(wǎng)絡(luò)控制器根據(jù)所述第一信息發(fā)送的第二信息,所述第三信息用于指示所述網(wǎng)絡(luò)控制器在目標(biāo)gpu接入的接入設(shè)備上創(chuàng)建目標(biāo)gpu間的通信對應(yīng)的voq成功。

9、可選的,在接收到所述第二信息之后,所述方法還包括:

10、啟動業(yè)務(wù)處理;

11、在業(yè)務(wù)處理結(jié)束后,向所述網(wǎng)絡(luò)控制器發(fā)送第三信息,所述第三信息用于指示所述網(wǎng)絡(luò)控制器刪除所述目標(biāo)gpu間的通信對應(yīng)的voq。

12、第二方面,提供一種voq實現(xiàn)方法,應(yīng)用于網(wǎng)絡(luò)控制器,包括:

13、接收業(yè)務(wù)側(cè)設(shè)備發(fā)送的第一信息,所述第一信息用于指示所述網(wǎng)絡(luò)控制器創(chuàng)建目標(biāo)gpu間的通信對應(yīng)的voq,所述目標(biāo)gpu是有通信需求的gpu;

14、根據(jù)所述第一信息和gpu接入拓?fù)湫畔ⅲ@取所述目標(biāo)gpu接入的接入設(shè)備的標(biāo)識和/或端口信息;

15、根據(jù)所述接入設(shè)備的標(biāo)識和/或端口信息,向所述接入設(shè)備發(fā)送第四信息,所述第四信息用于指示創(chuàng)建目標(biāo)gpu間的通信對應(yīng)的voq。

16、可選的,接收業(yè)務(wù)側(cè)設(shè)備發(fā)送的第一信息之后,所述方法還包括:

17、接收所述網(wǎng)絡(luò)控制器發(fā)送的第二信息,所述第二信息用于指示所述網(wǎng)絡(luò)控制器在目標(biāo)gpu接入的接入設(shè)備上創(chuàng)建目標(biāo)gpu間的通信對應(yīng)的voq成功。

18、可選的,所述方法還包括:

19、接收業(yè)務(wù)側(cè)設(shè)備在業(yè)務(wù)處理結(jié)束后發(fā)送的第三信息,所述第三信息用于指示所述網(wǎng)絡(luò)控制器刪除所述目標(biāo)gpu間的通信對應(yīng)的voq;

20、根據(jù)所述第三信息刪除所述目標(biāo)gpu間的通信對應(yīng)的voq;

21、向所述接入設(shè)備發(fā)送第五信息,所述第五信息用于指示所述接入設(shè)備刪除voq。

22、第三方面,提供一種voq業(yè)務(wù)側(cè)設(shè)備,包括:

23、第一發(fā)送模塊,用于向網(wǎng)絡(luò)控制器發(fā)送第一信息,所述第一信息用于指示所述網(wǎng)絡(luò)控制器創(chuàng)建目標(biāo)gpu間的通信對應(yīng)的voq,所述目標(biāo)gpu是有通信需求的gpu。

24、第四方面,提供一種voq網(wǎng)絡(luò)控制器,包括:

25、第二接收模塊,用于接收業(yè)務(wù)側(cè)設(shè)備發(fā)送的第一信息,所述第一信息用于指示所述網(wǎng)絡(luò)控制器創(chuàng)建目標(biāo)gpu間的通信對應(yīng)的voq,所述多個目標(biāo)gpu是有通信需求的gpu;

26、獲取模塊,用于根據(jù)所述第一信息和gpu接入拓?fù)湫畔?,獲取所述目標(biāo)gpu接入的接入設(shè)備的標(biāo)識和/或端口信息;

27、第三發(fā)送模塊,用于根據(jù)所述接入設(shè)備的標(biāo)識和/或端口信息,向所述接入設(shè)備發(fā)送第四信息,所述第四信息用于指示創(chuàng)建目標(biāo)gpu間的通信對應(yīng)的voq。

28、第五方面,提供一種通信設(shè)備,包括處理器,存儲器及存儲在所述存儲器上并可在所述處理器上運(yùn)行的程序或指令,所述程序或指令被所述處理器執(zhí)行時實現(xiàn)如第一方面或第二方面所述的方法的步驟。

29、第六方面,提供一種可讀存儲介質(zhì),所述可讀存儲介質(zhì)上存儲程序或指令,所述程序或指令被處理器執(zhí)行時實現(xiàn)如第一方面或第二方面所述的方法的步驟。

30、在本申請中,網(wǎng)絡(luò)側(cè)和業(yè)務(wù)側(cè)聯(lián)動動態(tài)部署有通信需求的gpu間的通信對應(yīng)的voq,不是對所有g(shù)pu都部署對應(yīng)的voq,從而減少接入設(shè)備(例如網(wǎng)關(guān))的voq規(guī)格需求,降低voq的設(shè)備成本,可以支持更大gpu集群規(guī)模的ai大模型訓(xùn)練業(yè)務(wù)。



技術(shù)特征:

1.一種voq實現(xiàn)方法,應(yīng)用于業(yè)務(wù)側(cè)設(shè)備,其特征在于,包括:

2.根據(jù)權(quán)利要求1所述的方法,其特征在于,向網(wǎng)絡(luò)控制器發(fā)送第一信息之前,所述方法還包括:

3.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述第一信息包括以下至少之一:目標(biāo)gpu標(biāo)識集、業(yè)務(wù)優(yōu)先級。

4.根據(jù)權(quán)利要求1所述的方法,其特征在于,在向網(wǎng)絡(luò)控制器發(fā)送第一信息之后,所述方法還包括:

5.根據(jù)權(quán)利要求4所述的方法,其特征在于,在接收到所述第二信息之后,所述方法還包括:

6.一種voq實現(xiàn)方法,應(yīng)用于網(wǎng)絡(luò)控制器,其特征在于,包括:

7.根據(jù)權(quán)利要求6所述的方法,其特征在于,接收業(yè)務(wù)側(cè)設(shè)備發(fā)送的第一信息之后,所述方法還包括:

8.根據(jù)權(quán)利要求7所述的方法,其特征在于,所述方法還包括:

9.一種業(yè)務(wù)側(cè)設(shè)備,其特征在于,包括:

10.一種網(wǎng)絡(luò)控制器,其特征在于,包括:

11.一種通信設(shè)備,其特征在于,包括處理器,存儲器及存儲在所述存儲器上并可在所述處理器上運(yùn)行的程序或指令,所述程序或指令被所述處理器執(zhí)行時實現(xiàn)如權(quán)利要求1至8中任一項所述的方法的步驟。

12.一種可讀存儲介質(zhì),其特征在于,所述可讀存儲介質(zhì)上存儲程序或指令,所述程序或指令被處理器執(zhí)行時實現(xiàn)如權(quán)利要求1至8中任一項所述的方法的步驟。


技術(shù)總結(jié)
本申請實施例提供一種VoQ實現(xiàn)方法、設(shè)備及可讀存儲介質(zhì),該方法包括:向網(wǎng)絡(luò)控制器發(fā)送第一信息,所述第一信息用于指示所述網(wǎng)絡(luò)控制器創(chuàng)建目標(biāo)GPU間的通信對應(yīng)的VoQ,所述目標(biāo)GPU是有通信需求的GPU。

技術(shù)研發(fā)人員:白艷,王瑞雪,程偉強(qiáng)
受保護(hù)的技術(shù)使用者:中國移動通信有限公司研究院
技術(shù)研發(fā)日:
技術(shù)公布日:2024/10/21
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
1