用于減小數(shù)據(jù)損壞概率的通道錯誤檢測和通道去除機制的制作方法
【專利說明】用于減小數(shù)據(jù)損壞概率的通道錯誤檢測和通道去除機制
【背景技術】
[0001] 近年來,對高性能計算化PC)的使用和興趣已出現(xiàn)大幅增長。過去,HPC通常與所謂 的"超級計算機"相關聯(lián)。超級計算機在20世紀60年代被引入,最初W及幾十年來主要由 S巧mour化ay在WSeymour化ay的名字或首字母縮寫命名的控制數(shù)據(jù)公司(CDC)、Cray研 究所W及隨后的多個公司制造。雖然20世紀70年代的超級計算機僅使用幾個處理器,但在 20世紀90年代,具有數(shù)千個處理器的機器開始出現(xiàn),并且近來已經(jīng)實現(xiàn)具有數(shù)十萬個"現(xiàn) 成"的處理器的大規(guī)模并行超級計算機。
[0002] 存在許多類型的HPC架構,運些HPC架構W不同級別的規(guī)模和性能來實現(xiàn)并進行研 究導向。然而,共同的思路在于,諸如處理器和/或處理器核之類的大量計算單元的互連來 W并行的方式協(xié)作地執(zhí)行任務。根據(jù)近來的忍片上系統(tǒng)(SoC)設計和提案,使用二維(2D)陣 列、S維環(huán)(torus)、環(huán)或其他配置在單個SoC上實現(xiàn)大量的處理器核等。此外,研究人員已 經(jīng)提出了3D SoC,在3D soC下,100個或甚至1000個處理器核W3D陣列互連。在多個服務器 板上的多個分開的多核處理器和SoC也可W緊密地間隔,多個服務器板又經(jīng)由背板等通信 地互連。另一常見方法是互連在通常W2D陣列配置的服務器的機架(例如,刀片式服務器和 模塊)中的多個互連計算單元。IBM Sequoia(紅杉)(宣稱是世界上最快的超級計算機)包括 總計1572864個核的服務器刀片/模塊的96個機架的2D陣列,并且當在峰值性能下操作時消 耗巨額的7.9兆瓦。
[0003] HPC的性能瓶頸之一是由在計算節(jié)點之間的多個互連上傳送數(shù)據(jù)引起的等待時間 (latency)。典型地,運些互連W互連層次結構來構造,處理器/SoC內(nèi)的最高速且最短的互 連在此層次結構的頂部,而等待時間隨著沿層次結構級別向下而增加。例如,在處理器/SoC 級別之后,互連層次結構可包括處理器間的互連級別、板間的互連級別、W及將單獨的服務 器或單獨服務器的聚合與其他機架中的服務器/聚合連接的一個或多個附加的級別。
[0004] 互連層次結構的一個或多個級別采用不同的協(xié)議是常見的。例如,SoC內(nèi)的多個互 連典型地是專有的,而層次結構中的較低級別可采用專有或標準化的多個互連。不同的互 連級別還將典型地實現(xiàn)不同的物理(PHY)層。作為結果,在多個互連級別之間采用某種類型 的互連橋接是必要的。此外,當實現(xiàn)異構計算環(huán)境時,給定的互連級別內(nèi)的橋接可能是必須 的。
[0005] 在互連層次結構的較低級別處,使用諸如W太網(wǎng)(在各種IE邸802.3標準中定義) 和無限帶寬(InfiniBand)之類的標準化互連。在PHY層,運些標準中的每一種都支持有線連 接(諸如,纜線和在背板上)W及光鏈路。W太網(wǎng)在OSI 7層模型中的鏈路層(層2)上實現(xiàn),并 且從根本上被視為鏈路層協(xié)議。無限帶寬(InfiniBand)標準定義了用于覆蓋OSI層1-4的無 限帶寬的各個OSI層方面。
[0006] 當前的W太網(wǎng)協(xié)議不具有用于支持W太網(wǎng)鏈路上的可靠數(shù)據(jù)傳輸?shù)娜魏喂逃性O 施。運與無限帶寬(InfiniBand)的鏈路層實現(xiàn)類似。在更高層(諸如,TCP/IP)上,每個地址 傳輸是可靠的。在TCP下,經(jīng)由響應于從(IP源地址處的)發(fā)送方接收到IP分組而從(IP目的 地地址處的)接收方返回至此發(fā)送方的顯式確收(ACK)來實現(xiàn)可靠數(shù)據(jù)遞送。由于分組在沿 發(fā)送方與接收方之間的路徑的多個節(jié)點中的一個節(jié)點處可能丟失(或者如果接收方具有的 緩沖器空間不足,則甚至有可能在接收方處丟失),因此使用顯式ACK來確認每一個分組的 成功遞送(注意,單個ACK響應可確認多個IP分組的遞送)。傳輸-確收(ACK)方案需要在源和 目的地設備中的每一個設備處維持大量的緩沖器空間(在需要重傳丟失的一個或多個分組 的情況下),并且還給網(wǎng)絡找添加了附加的處理和復雜性。例如,由于ACK有可能丟失,因此 發(fā)送方還采用定時器,此定時器用于觸發(fā)對在此定時器的超時時段之內(nèi)未接收到ACK針對 的分組的重傳。每一個ACK都消耗珍貴的鏈路帶寬并且產(chǎn)生附加的處理開銷。此外,使用定 時器對鏈路往返延遲設置了上限。
【附圖說明】
[0007] 通過參考與附圖一起進行的下面的詳細描述,本發(fā)明的前述的方面和許多伴隨的 優(yōu)點,將變得更加輕松地被理解,其中,在各個視圖中,相同參考編號表示相同部件,除非另 作說明:
[0008] 圖1是示出根據(jù)一個實施例的包括結構(fabric)架構的各種部件和互連的系統(tǒng)的 局級視圖的不意圖;
[0009] 圖2是描繪根據(jù)一個實施例的用于在結構鏈路上傳送數(shù)據(jù)的該架構的多個層的示 意圖;
[0010] 圖3是示出被集合在捆包(bundle)中的多個微片(flit)的示意圖;
[0011] 圖4是示出根據(jù)一個實施例的結構分組(packet)的結構的示意圖;
[0012] 圖5是示出根據(jù)一個實施例的標準檢測LTP的數(shù)據(jù)結構的示圖;
[0013] 圖6是示出根據(jù)一個實施例的14位CRC LTP的數(shù)據(jù)結構的示圖;
[0014] 圖7是示出根據(jù)一個實施例的增強型檢測LTP的數(shù)據(jù)結構的示圖;
[001引圖8是示出根據(jù)一個實施例的標準檢現(xiàn)性LTP的數(shù)據(jù)結構的示圖;
[0016] 圖9a是示出根據(jù)一個實施例的用于4通道鏈路的傳輸方案的實施例的示圖,在此 傳輸方案下,每次在鏈路結構與鏈路傳送子層之間的接口處并行地處理兩個用于標準檢測 LTP的微片;
[0017] 圖9b是示出根據(jù)一個實施例的用于4通道鏈路的傳輸方案的實施例的示圖,在此 傳輸方案下,每次在鏈路結構與鏈路傳送子層之間的接口處并行地處理兩個用于增強型檢 ^ULTP的微片;
[0018] 圖10是示出根據(jù)一個實施例的在4通道鏈路上傳輸具有兩個控制位的14位CRC LTP的示意圖,其中每次在鏈路結構與鏈路傳送子層之間的接口處并行地處理兩個微片;
[0019] 圖11是示出根據(jù)一個實施例的在8通道數(shù)據(jù)路徑上并行地傳輸具有兩個控制位的 兩個14位CRC LTP的示意圖,此8通道數(shù)據(jù)路徑包括結合在一起的兩個4通道鏈路;
[0020] 圖12是示出根據(jù)一個實施例的在采用4通道的兩個鏈路端口之間的雙向數(shù)據(jù)傳輸 的示例的示意圖;
[0021] 圖13是示出交織來自在分開的虛擬通道上發(fā)送的兩個FP的多個結構分組微片的 實施例的示例的示圖;
[0022] 圖14是示出根據(jù)一個實施例的使用進找(Push)和出找(Pop)交織的示圖;
[0023] 圖15是示出根據(jù)一個實施例的、使用進找和出找交織W及化標記交織的組合的示 圖;
[0024] 圖16是示出根據(jù)一個實施例的、來自緩存在S個分開的化FIFO中的S個結構分 組的多個微片的搶占式交織的示例的組合示意圖和時間流圖,S個分開的VL FIFO對應于 具有單獨優(yōu)先級等級的化;
[0025] 圖17是示出根據(jù)一個實施例的、來自緩存在S個分開的化FIFO中的S個結構分 組的多個微片的冒泡式交織和搶占式交織的示例的組合示意圖和時間流圖,其中兩個化共 享優(yōu)先級等級,而另一個化具有更高的優(yōu)先級等級;
[0026] 圖1 和18b是示出傳輸LTP傳輸方案和使用每通道(per-1 ane)的CRC和LTP CRC來 檢測LTP通道和錯誤通道的示意圖,其中
[0027] 圖18a描繪了根據(jù)一個實施例的LTP傳輸方案中的LTP的原始傳輸,而圖18b描繪了 根據(jù)一個實施例的使用重放緩沖器在LTP傳輸流中的LTP的重傳;
[002引圖18c是示出根據(jù)一個實施例的使用重試標記和往返標記來防止重放緩沖器LTP 被覆寫的示意圖;
[0029] 圖19是示出根據(jù)一個實施例的使用33個傳送組(XFR)來傳輸標準檢測LTP的示圖;
[0030] 圖20是示出根據(jù)一個實施例的使用33個32位XFR和四個LTP序列狀態(tài)在4通道鏈路 上傳輸LTP的示圖;
[0031] 圖21是示出根據(jù)一個實施例的如何使用33個32位XFR在4通道鏈路上傳輸包括8字 節(jié)數(shù)據(jù)和第65位的微片數(shù)據(jù)的示圖;
[0032] 圖22a-22e共同構成多頁流程圖,運些流程圖示出根據(jù)一個實施例的用于使用隱 式的ACKW及重放緩沖器促進鏈路級別的可靠的LTP傳輸?shù)牟僮骱瓦壿?,并且還示出根據(jù)一 個實施例的用于檢測錯誤通道的操作和邏輯;
[0033] 圖23a是根據(jù)一個實施例的發(fā)射機的狀態(tài)圖;
[0034] 圖23b是根據(jù)一個實施例的接收機的狀態(tài)圖;
[0035] 圖24是根據(jù)一個實施例的按照XFR組來計算并存儲的每通道的CRC的示圖;
[0036] 圖25是示出用于圖18a和18b的示例的按照每個XFR組來存儲的示例性的每通道的 CRC計算的示圖,其中,在第一LTP序列狀態(tài)下在壞LTP的原始傳輸期間W及在第SLTP系列 狀態(tài)下在從重放緩沖器重傳該壞LTP的期間計算每通道的CRC;
[0037] 圖26是示出根據(jù)一個實施例的在S個通道上的標準檢測LTP的傳送的示圖,其中 逐通道并行地傳送11個Xm?;
[0038] 圖27是示出根據(jù)一個實施例的在兩個通道上并且采用兩個LTP序列狀態(tài)來傳送標 準檢測LTP的示圖,其中在運兩個通道中的一個通道上傳送17個XFR,并在另一個通道上傳 輸16個XW;
[0039] 圖28是示出根據(jù)一個實施例的使用33個32位XFR在單個通道上傳輸標準檢測LTP 的示圖;并且
[0040] 圖29是根據(jù)一個實施例的包括HFI的系統(tǒng)的示意圖。
【具體實施方式】
[0041] 本文中描述了用于實現(xiàn)通道錯誤檢測和通道去除機制W減小多通道鏈路中的數(shù) 據(jù)損壞概率的實施例。在W下描述中,闡述了許多具體細節(jié)W提供對本發(fā)明的實施例的透 徹理解。然而,本領域技術人員將領會,可W不利用運些特定細節(jié)中的一個或多個細節(jié)或者 通過其他方法、部件、材料等來實施本發(fā)明。在其他實例中,未詳細地示出或描述公知的結 構、材料或操作W免使本發(fā)明的多個方面含糊。
[0042] 本申請文件中通篇對"一個實施例"或"實施例"的引用意指結合所述實施例描述 的特定的特征、結構或特性被包括在本發(fā)明的至少一個實施例中。如此,在整篇說明書中的 不同位置出現(xiàn)短語"在一個實施例中"或"在實施例中"不一定都是指同一個實施例。此外, 在一個或多個實施例中,能W任何合適的方式來組合特定的特征、結構或特性。
[0043] 為清楚起見,也可通過附圖中的各個部件的標記而不是通過特定的參考編號來指 代附圖中的各個部件。附加地,可利用跟隨有"(typ)"(意指"典型腳')的參考編號示出指代 特定類型的部件(與特定的部件相對照)的參考編號。將理解,運些部件的配置將是可能存 在、但出于簡潔和清楚的目未在附圖中示出的典型的或類似的部件。相反,"typ"不應理解 為意指該部件、元件等典型地用于它的所公開的功能、實現(xiàn)、目的,等等。
[0044] 根據(jù)本文中描述的實施例的多個方面,提供定義了消息傳遞、交換的、服務器互連 網(wǎng)絡的架構。該架構跨越OSI網(wǎng)絡模型的層1和層2,充分利用用于層3的IETF網(wǎng)際協(xié)議,并且 包括用于該架構的層4的新的且被充分利用的規(guī)范的組合。
[0045] 可通過正式定義(諸如,超級計算機)或簡單地通過關聯(lián)來實現(xiàn)該架構W用于互連 CPU和包括邏輯消息傳遞配置的多個其他子系統(tǒng),如同云計算中常見的情況,此類服務器組 或集群由于它們運行的消息傳遞應用而W某種類型的協(xié)作方式運作。互連的部件被稱為節(jié) 點。架構可實現(xiàn)為將處理器節(jié)點與SoC、多忍片模塊等互連。被稱為主機的一種類型的節(jié)點 是用戶模式軟件在其上執(zhí)行的類型。在一個實施例中,主機包括單個高速緩存一致性存儲 器域(無論該一致性域中的核或CPU的數(shù)量),并且可包括各種本地I/O和存儲子系統(tǒng)。主機 運行的軟件的類型可定義更專業(yè)化的功能(諸如,用戶應用節(jié)點、或存儲或文件服務器),并 用于描述更詳細的系統(tǒng)架構。
[0046] 在頂層,該架構定義W下部件:
[0047] ?主機結構接口(HFI);
[004引 .鏈路
[0049] ?交換機;
[0050] ?網(wǎng)關;W及
[0化1].綜合性的管理模型。
[0052] 主機結構接口至少由用于實現(xiàn)該架構的物理層和鏈路層的邏輯組成,使得節(jié)點可 附接至結構并向其他服務器或設備發(fā)送分組并接收分組。HFI包括用于操作系統(tǒng)和VMM(虛 擬機管理器)支持的適當?shù)挠布涌诤万寗悠?。HFI還可包括用于執(zhí)行或加速上層協(xié)議和/ 或卸載傳輸協(xié)議的??谶壿?。HFI還包括用于響應于來自網(wǎng)絡管理部件的消息的邏輯。每一 個主機都經(jīng)由HFI而連接至架構結構。
[0053] 鏈路是全雙工的點對點互連,運些互連將HFI連接至交換機,將交換機連接至其他 交換機,或者將交換機連接至網(wǎng)關。鏈路可具有W電路板跡線、銅纜或光纜形式的不同的物 理配置。在一個實施例中,PHY(物理層)實現(xiàn)、電纜和連接器策略將遵循W太網(wǎng)(特別是 100化E(每秒100千兆比特的W太網(wǎng),諸如,IEEE 802.3bj標準草案(當前草案2.2)中定義的 W太網(wǎng)鏈路)的那些PHY(物理層)實現(xiàn)、電纜和連接器策略。該架構是靈活的,從而支持使用 可超過IOOG祀帶寬的未來W太網(wǎng)或其他鏈路技術。高端超級計算機產(chǎn)品可使用專用(高得 多的帶寬)的PHY,并且對于運些配置,與架構產(chǎn)品的互操作性將基于具有帶有不同的PHY的 端口的多個交換機。
[0054] 交換機是OSI層2的部件,并且由該架構的管理基礎設施管理。該架構將網(wǎng)際協(xié)議 定義為其OSI的層3或互聯(lián)層,不過該架構既不在IP域中指定任何事物,也不管理IP相關的 設備。支持架構結構與外部網(wǎng)絡(尤其是W太網(wǎng))之間的連接性的設備被稱為網(wǎng)關。輕量網(wǎng) 關可提供降低的功能性,并且嚴格地在W太網(wǎng)的層2上工作。全功能網(wǎng)關可在層3上W及更 高的層上操作,因此表現(xiàn)為路由器。由該架構提供的網(wǎng)關規(guī)范包括機制,所述機制用于W太 網(wǎng)封裝,并用于網(wǎng)關如何能夠在該結構上工作W準許至與該架構的其余部分一致的W太網(wǎng) 數(shù)據(jù)中屯、網(wǎng)絡的靈活的連接性。將IP用作相互聯(lián)網(wǎng)協(xié)議使得能夠使用IETF認可的傳輸(即 TCP、UDP和SCTP) W超出該架構的結構來發(fā)送并接收消息。
[0055] 圖1示出根據(jù)一個實施例的系統(tǒng)100的高級視圖,系統(tǒng)100示出架構的各種部件和 互連。該架構的中屯、特征是結構102,該結構102包括經(jīng)由架構鏈路和交換機而互連的HFI和 網(wǎng)關的集合。如圖1中所描繪,結構102部件包括:多個HFI 104(示出一個HFI 104),每一個 HFI 104都由相應的分立的單節(jié)點平臺106主控;HFI 108,由虛擬平臺110主控;HFI 1121和 112n,由多節(jié)點平臺116的相應節(jié)點1141和114n主控;W及集成單節(jié)點平臺120的HFI 1181和 118n;高基交換機122;交換機124和126;(多個)結構管理器128;網(wǎng)關130;鏈路132、134、 1361、136。、138、14〇1、140。、142、144、148^及共同示出為云150的附加的鏈路和交換機。
[0056] 如上文所討論,交換機是層2設備,并且在結構內(nèi)擔當分組轉發(fā)機構。交換機由結 構管理軟件集中地供應和管理,并且每一個交換機都包括管理代理W對管理事務作出響 應。集中式供應意味著轉發(fā)表由結構管理軟件編程,W實現(xiàn)特定的結構拓撲和轉發(fā)能力(類 似于用于自適應路由的替代路徑)。交換機負責執(zhí)行諸如自適應路由和負載平衡之類的QoS 功能,并且還實現(xiàn)阻塞管理功能。
[0057] 圖2描繪了用于在結構鏈路上傳送數(shù)據(jù)的架構的多個層。運些層包括物理(PHY) 層、鏈路傳送子層、鏈路結構子層W及傳輸層。在圖2的左側是運些層向OSI參考模型的映 射,其中PHY層映射至層UPHY層),鏈路傳送子層和鏈路結構子層共同映射至層2(鏈路層), 并且傳輸層映射至層4(傳輸層)。
[0058] 在該架構中,在物理層中,信號被一起集合到端口中,運些端口表現(xiàn)為單片式實 體、并且作為單片式實體被控制和報告。端口包括一個或多個物理通道,其中每一個通道都 由在物理傳輸介質中實現(xiàn)的兩個差分對或光纖組成(每個通信方向一個差分對或光纖)。構 成端口的通道的數(shù)量是依賴于實現(xiàn)方式的;然而,鏈路傳送子層的架構支持端口寬度的有 限集合。特定的端口寬度被支持為基本端口寬度W允許用于電纜和忍片設計的常見目標。 運些端口寬度包括1義、4義、扣、12義和16義,其中^'標識物理通道的數(shù)量。在諸如檢測缺陷通 道的一些情況下,鏈路可能在減小的通道寬度下運行。
[0059] 鏈路傳送子層充當物理層與鏈路結構子層之間的接口。(鏈路結構子層處的)鏈路 結構分組被分割成64位流控制數(shù)位(FLIT、Flit或微片,流控制數(shù)位的近似收縮)。圖3示出 在捆包302中成組的多個微片300的示例。每一個微片300都包含64個數(shù)據(jù)位,包括8字節(jié)的 數(shù)據(jù)。
[0060] 鏈路傳送子層將多個通道形成隊組(team),運些隊組能夠W可靠的方式、跨該鏈 路來傳送微片W及它們相關聯(lián)的信用返回信息。運通過使用被稱為鏈路傳送分組化TP)的 1056位捆包來完成,所述LTP與鏈路結構子層相關聯(lián)。圖3還描繪了 LTP中包括16個數(shù)據(jù)微片 的數(shù)據(jù)部分。此外,LTP包括微片類型信息、CRC數(shù)據(jù)W及任選的數(shù)據(jù)(未在圖3中示出)。在各 附圖(例如,圖5-11)中示出、并在下文中更詳細地描述了 LTP的示例。
[0061] 結構分組由64位微片W及針對每個微片的微片類型位組成。結構分組的第一數(shù)據(jù) 微片被稱為頭微片。結構分組的最后一個數(shù)據(jù)微片被稱為尾微片。結構分組中的任何其他 數(shù)據(jù)微片被稱為體微片。在圖4中示出結構分組400的示例。
[0062] 為每一個微片提供微片類型位W將體微片與其他微片類型區(qū)分開。在一個實施例 中,體微片被編碼成將微片類型位置位為1,并且包含64位數(shù)據(jù)。所有其他微片被標記成將 類型位置位為0。頭微片被編碼成將微片[63]置位為1。所有其他的(非體)微片被編碼成將 微片[63]置位為0。尾微片被編碼成將微片[62]置位為1。所有其他的(非體/頭)微片被編碼 成將微片[62]置位為0。在W下表1中概述了微片編碼。
[0064] 表 1
[0065] 在表帥概述了控制微片。在空(null化TP中發(fā)送僅由鏈路傳送層使用的屯個控制 微片化T控制微片)。其余的控制微片被劃分成兩個組。結構分組(FP)微片包括化a地adPkt (頭壞分組)、BodyBadPkt (體壞分組)W及化i IBadPkt (尾壞分組)控制微片W及正常的分組 頭化ead)微片、體(Body)微片和尾(Tail)微片。鏈路結構(LF)命令微片包括Idle(空閑的)、 VLMrkr(化標記)和化dtRet(信用返回)微片。FP微片和LF命令微片可被一起混合在可靠的 LTP內(nèi)W用于在鏈路上傳輸。
[0067]
[0068] 表 2
[0069] 當沒有要插入到數(shù)據(jù)流中的結構分組微片時,由鏈路結構層使用空閑命令微片。 如果數(shù)據(jù)路徑的完整寬度包含空閑,則鏈路傳送層將從被插入到輸入緩沖器中的微片流中 去除運些空閑。如果該數(shù)據(jù)路徑既包含空閑的微片又包含非空閑的微片,則將不會去除運 些空閑。實現(xiàn)此W使鏈路傳送層將完全相同的數(shù)據(jù)路徑組成呈現(xiàn)給該鏈路的遠側的鏈路結 構層。如果鏈路傳