- 論壇徽章:
- 0
|
服務(wù)器技術(shù)之NUMA分布式內(nèi)存存取技術(shù)
模塊化的NUMA服務(wù)器
--------------------------------------------------------------------------------
模塊化服務(wù)器的優(yōu)勢
模塊化服務(wù)器主要包括計算模塊、I/O模塊和海量存儲器模塊。這些模塊協(xié)同工作,構(gòu)成一個模塊化服務(wù)器系統(tǒng)。在一個模塊化服務(wù)器系統(tǒng)中,可以分別對每一個模塊進(jìn)行升級,進(jìn)行故障查找,或用新模塊替換舊模塊,同類模塊也可以隨時加入到模塊化服務(wù)器中,以便對系統(tǒng)進(jìn)行擴(kuò)展。
模塊化服務(wù)器的最大好處之一,就是可以保護(hù)客戶的投資。模塊化服務(wù)器是一種可伸縮的服務(wù)器,客戶可以隨著業(yè)務(wù)需要,通過向服務(wù)器中添加各種模塊,擴(kuò)展他們的服務(wù)器系統(tǒng);另一個顯著優(yōu)點是維護(hù)管理十分方便。模塊化服務(wù)器增強了系統(tǒng)的可用性和容錯性。從高性能多處理器計算機體系結(jié)構(gòu)觀點來看,CC-NUMA(高速緩存一致性非均衡存儲器訪問)體系結(jié)構(gòu),把多個處理器通過路由器光纖互連在一起,系統(tǒng)帶寬可隨系統(tǒng)規(guī)模擴(kuò)大而增加,從而克服了基于總線的SMP(對稱多處理)體系結(jié)構(gòu)所造成的瓶頸。CC-NUMA結(jié)構(gòu)采用超立方體的多維互連特性,加上模塊化計算所帶來的靈活性,使系統(tǒng)的可伸縮性達(dá)到了前所未有的水平,同時節(jié)省了費用。因此,模塊化的NUMA服務(wù)器在靈活性和經(jīng)濟(jì)性方面達(dá)到了一個新境界。
NUMA 3體系結(jié)構(gòu)
SGI 3000系列服務(wù)器采用第三代NUMA體系結(jié)構(gòu)。在該結(jié)構(gòu)中,所有的處理器和存儲器使用SGI開發(fā)的特殊交叉開關(guān)連接在一起。這些處理器、存儲器和交叉開關(guān)的結(jié)合組成了被稱為NUMAlink的互連結(jié)構(gòu)。
NUMA3體系結(jié)構(gòu)通過一個超立方體(hypercube)把路由器與節(jié)點連在一起構(gòu)成。節(jié)點是由裝有4個CPU的C-brick構(gòu)成,路由器由R-brick構(gòu)成。
從概念上說,每個路由器模塊與超立方體的一個頂點等價,兩個頂點之間每條光纖電纜與超立方體的一條邊等價。因此,超立方體的基礎(chǔ)結(jié)構(gòu)是路由器的互連。
超立方體的空間維數(shù)為n,n為大于或等于0的整數(shù)。一個超立方體共有2n個頂點,每個頂點有n個連接(邊),各個頂點上所有的連接彼此正交。
4維超立方體可以通過“加倍-延伸”的方法,由3維超大型立方體和1維超立方體構(gòu)成,4維超立方體共有16個頂點、128個CPU和32個連接。
依此類推,6維超立方體的頂點數(shù)為64,CPU數(shù)為512個。
NUMA 3服務(wù)器內(nèi)含有Bedrock芯片,該ASIC芯片是一個有8個輸入、6個輸出的交互開關(guān),用于處理器和本地存儲器及遠(yuǎn)地存儲器之間的存儲控制。Bedrock同樣也可連接處理器和系統(tǒng)I/O的通道,使得每個處理器可以直接訪問系統(tǒng)中每一個I/O槽。
NUMA 3中另一個關(guān)鍵部件是路由芯片,它是一個有8個端口的交叉開關(guān),位于R-brick中。路由節(jié)點是所有計算節(jié)點的信息樞紐。
上述這些交叉開關(guān)和NUMAlink互連結(jié)構(gòu)組成了具有極低延遲和高帶寬的結(jié)構(gòu)。從最少4個CPU的系統(tǒng)到最多512個CPU的超級計算系統(tǒng),NUMA 3的遠(yuǎn)地和本地存儲器的訪問延遲比只有2:1,在最大配置下往返延遲低于600ns,在業(yè)界同類的NUMA機中是領(lǐng)先的。
鑒于NUMA 3體系結(jié)構(gòu)從概念上講是超立方體系統(tǒng),當(dāng)維數(shù)從n維增至n+1維時,它的頂點數(shù)將加倍,而每個CPU的對分帶寬仍可保持常數(shù),所以隨著維數(shù)的增加,頂點和CPU數(shù)目增加,系統(tǒng)總的帶寬呈線性增長。
由于SGI NUMA 3服務(wù)器采用模塊化結(jié)構(gòu)的超立方體連接,因此系統(tǒng)具有杰出的可擴(kuò)展性,并且可以隨著計算機新技術(shù)的發(fā)展而同步發(fā)展,這是計算機設(shè)計中的一個巨大變革, 它實現(xiàn)了人們盼望已久的模塊化計算的理想。可以預(yù)料,這種第三代NUMA服務(wù)器在互聯(lián)網(wǎng)經(jīng)濟(jì)時代,在電信、能源、交通、科技等領(lǐng)域?qū)l(fā)揮重要作用。
實現(xiàn)高性能計算的新方法-NUMAflex
NUMAflex把卓越的NUMA體系結(jié)構(gòu)和模塊化技術(shù)融合為一,創(chuàng)建了業(yè)界領(lǐng)先的第三代NUMA 超級計算機。系統(tǒng)可以在不同方面獨立的擴(kuò)展,其靈活性、可擴(kuò)展性堪稱一流,并充分地保護(hù)客戶的投資。NUMAflex設(shè)計可以 大大提高系統(tǒng)的可用性,利用各種模塊和互連光纖及高速電纜,模塊化的NUMA 體系結(jié)構(gòu)可以隔離各部件,因此提高了系統(tǒng)的容錯性,并且便于維護(hù)和升級。模塊化特性也便于提供N+1的冗余,如可熱插拔電源和風(fēng)扇。
為了達(dá)到最大的系統(tǒng)可用性,可對系統(tǒng)進(jìn)行分區(qū)。分區(qū)是指把一個分布式共享內(nèi)存系統(tǒng)劃分為一系列更小的系統(tǒng)。每個分區(qū)可以表現(xiàn)為獨立的子系統(tǒng),它們可以自行啟動、停止或重啟,而不影響其他分區(qū)的正常運行。同理,一個分區(qū)的故障不會導(dǎo)致其他系統(tǒng)崩潰。由于實行故障隔離,系統(tǒng)可達(dá)到最大的容錯,因此可以提高系統(tǒng)的可靠性、可用性和可服務(wù)性。
由于系統(tǒng)不使用總線,NUMAflex完全不需要使用背板。系統(tǒng)可以分別更換各種部件或者進(jìn)行升級,因此可以更好地保護(hù)客戶的投資。NUMAflex的推出,表明“鏟車式”的全面升級方式已經(jīng)過時。利用NUMAflex構(gòu)成一個系統(tǒng),類似于構(gòu)建一座可以擴(kuò)展的房屋,而不是購買一套面積一定的房間。NUMAflex量體裁衣的系統(tǒng)功能使用戶的投資更經(jīng)濟(jì)、更合理。例如,研究基因的排列需要很強的計算能力和大容量的內(nèi)存,但外存容量需要并不很大; 相反,媒體流傳輸需要外存容量大、輸入輸出快,但計算能力并不要求很強。NUMAflex可以使客戶根據(jù)需要隨意配置各種積木塊,系統(tǒng)維護(hù)方便,還可以隨時獨立地升級。NUMAflex還可以按照需要把共享內(nèi)存的機器配置成集群系統(tǒng)。 |
|