亚洲av成人无遮挡网站在线观看,少妇性bbb搡bbb爽爽爽,亚洲av日韩精品久久久久久,兔费看少妇性l交大片免费,无码少妇一区二区三区

  免費(fèi)注冊(cè) 查看新帖 |

Chinaunix

  平臺(tái) 論壇 博客 文庫
1234下一頁
最近訪問板塊 發(fā)新帖
查看: 11347 | 回復(fù): 35
打印 上一主題 下一主題

HPCC方案咨詢 [復(fù)制鏈接]

論壇徽章:
0
跳轉(zhuǎn)到指定樓層
1 [收藏(0)] [報(bào)告]
發(fā)表于 2008-12-07 22:52 |只看該作者 |倒序?yàn)g覽
大家好,最近定了一套HPCC系統(tǒng)有些問題想向大家咨詢一下
說明:

科學(xué)并行計(jì)算用,準(zhǔn)備安裝RHEL5或CENTOS
目前的磁盤的使用規(guī)劃是所有數(shù)據(jù)存儲(chǔ)在主節(jié)點(diǎn)(4*450G 3.5英寸SAS硬盤,RAID5),包括操作系統(tǒng),并行環(huán)境,程序,個(gè)人數(shù)據(jù)(/home)
計(jì)算節(jié)點(diǎn)只安裝操作系統(tǒng),原則上不存放個(gè)人數(shù)據(jù),最多只是作為計(jì)算生成文件的臨時(shí)存儲(chǔ)(各計(jì)算節(jié)點(diǎn)的/tmp)。

硬件配置(都是DELL的)
主(管理存儲(chǔ))節(jié)點(diǎn)1臺(tái)
PowerEdge 2950MLK
CPU:兩顆Intel四核 Xeon 5405;
內(nèi)存:2G×4= 8G ECC;
硬盤:4*450G 3.5英寸SAS硬盤(15k rpm);
RAID卡:集成PERC 6/i卡(Raid1), 做RAID5;

計(jì)算節(jié)點(diǎn)20臺(tái)
PowerEdge 1950MLK
CPU:兩顆Intel四核 Xeon E5410;
內(nèi)存:4G×4 = 16G ECC;
硬盤:146G 3.5英寸SAS硬盤(15k rpm);

千兆交換機(jī)
Dell  PowerConnect 6248
2臺(tái);六類網(wǎng)線


主要有兩個(gè)問題:
(1)集群管理套件,目前正在考慮使用ROCKS或者OSCAR,這兩個(gè)哪一個(gè)更好?
看了nntp版主的兩個(gè)帖子,
http://www.72891.cn/viewthread.php?tid=754245
http://www.72891.cn/viewthread.php?tid=754246

由于"Oscar generally works best in a homogeneous environment",考慮到將來可能升級(jí)(再添10-15個(gè)計(jì)算節(jié)點(diǎn)),新的硬件配置肯定會(huì)不一樣,所以目前傾向于ROCKS。在別的方面還有些什么要考慮的?

(2)目前的配置中每個(gè)計(jì)算節(jié)點(diǎn)是雙CPU,每個(gè)CPU四核,這樣每個(gè)計(jì)算節(jié)點(diǎn)內(nèi)就有8個(gè)核。由于我們所需要運(yùn)行的程序并行線程多了效率降低很快,據(jù)網(wǎng)上公開的測(cè)試,千兆網(wǎng)下一般超過8線程就只有50%了。因此我有這樣的設(shè)想,將計(jì)算盡量放在同一個(gè)節(jié)點(diǎn)內(nèi)的8個(gè)核上并行,以減少數(shù)據(jù)在網(wǎng)絡(luò)上的傳輸交換。在這種模式下,提交計(jì)算的時(shí)候,編寫一個(gè)腳本,將輸入文件先復(fù)制到某一個(gè)計(jì)算節(jié)點(diǎn)的/tmp下,然后計(jì)算就在這個(gè)節(jié)點(diǎn)的8個(gè)核來完成,計(jì)算完后再將輸出文件(大小一般不超過100M)復(fù)制回主節(jié)點(diǎn)。

我們主要做凝聚態(tài)物理的第一性原理計(jì)算,輸入文件只有幾K或者幾十K,輸出文件則有好多個(gè),最大的文件有幾個(gè)G(一般是存儲(chǔ)波函數(shù)之類的),小的只有幾M或者幾十M,但實(shí)際上對(duì)我們最有用的信息都是在這些小文件里。我考慮的是,如果按照常規(guī)的模式把主節(jié)點(diǎn)硬盤當(dāng)作本地硬盤來運(yùn)行程序,那計(jì)算節(jié)點(diǎn)生成的這些幾個(gè)G的大文件在計(jì)算的時(shí)候會(huì)通過千兆網(wǎng)絡(luò)寫回到主節(jié)點(diǎn)上,會(huì)耗費(fèi)時(shí)間和網(wǎng)絡(luò)帶寬;如果先把輸入文件COPY 到計(jì)算節(jié)點(diǎn)上,算完后再把有用的小輸出文件COPY回主節(jié)點(diǎn),這樣實(shí)際上通過網(wǎng)絡(luò)來回走的數(shù)據(jù)量會(huì)小很多。

請(qǐng)問
a. 這個(gè)設(shè)想是否可行?
b. 如果可行的話,/tmp應(yīng)該怎么分區(qū),計(jì)算節(jié)點(diǎn)硬盤大小為146G,是不是可以把除操作系統(tǒng)外的所有空間都給/tmp?
c. 要實(shí)現(xiàn)這個(gè)目的,在隊(duì)列管理上應(yīng)該怎么做?是給每個(gè)節(jié)點(diǎn)定義一個(gè)隊(duì)列,這樣的劃分的隊(duì)列是不是太多了一些?
還是一個(gè)隊(duì)列的資源里包含多臺(tái)機(jī)器,通過設(shè)置來保證每個(gè)計(jì)算只在一個(gè)節(jié)點(diǎn)內(nèi)完成?

(3)由于我們還有一些串行計(jì)算的需求,劃分隊(duì)列的時(shí)候能夠?qū)iT弄一個(gè)隊(duì)列做串行計(jì)算嗎?

謝謝大家!


[ 本帖最后由 phonan 于 2008-12-8 12:30 編輯 ]

論壇徽章:
0
2 [報(bào)告]
發(fā)表于 2008-12-08 08:53 |只看該作者

回復(fù) #1 phonan 的帖子

你可以考慮ROCKS,這個(gè)便于實(shí)現(xiàn),而其你可以用live cd進(jìn)行測(cè)試并積累經(jīng)驗(yàn)

論壇徽章:
0
3 [報(bào)告]
發(fā)表于 2008-12-08 10:23 |只看該作者
可以考慮用redhat HPC包.用redhat做系統(tǒng)的話,方便.

關(guān)于調(diào)度管理,你選什么,sge,torque+maui?資源分配及串行陣列都是支持的,當(dāng)然主要是免費(fèi).

關(guān)于文件系統(tǒng),用拷來拷去的方式,還是在一個(gè)并行系統(tǒng)下?

[ 本帖最后由 wysilly 于 2008-12-8 10:27 編輯 ]

論壇徽章:
0
4 [報(bào)告]
發(fā)表于 2008-12-08 11:09 |只看該作者
使用rocks或者OSCAR要看你心情了,我是自己做disk image的,也很方便。
關(guān)于分區(qū),現(xiàn)在你對(duì)你的計(jì)算節(jié)點(diǎn)磁盤使用情況不明確的情況下,先用LVM,這樣便于你方便的調(diào)整/tmp空間
關(guān)于任務(wù)調(diào)度分配,SGE可以實(shí)現(xiàn)你需求的各種隊(duì)列,你可以把你的不同性質(zhì)的任務(wù)遞交給不同的隊(duì)列
根據(jù)你的計(jì)算情況,在可能的情況下,盡量使用local disk
經(jīng)常察看你的集群的各方面的狀態(tài)數(shù)據(jù),做些調(diào)整,呵呵

論壇徽章:
0
5 [報(bào)告]
發(fā)表于 2008-12-08 11:26 |只看該作者

回復(fù) #2 kns1024wh 的帖子

謝謝,ROCKS有l(wèi)ive CD嗎?我在http://www.rocksclusters.org下載了,都是直接安裝用的啊。
最近倒是考慮在虛擬機(jī)下安裝試試。

論壇徽章:
0
6 [報(bào)告]
發(fā)表于 2008-12-08 11:41 |只看該作者

回復(fù) #3 wysilly 的帖子

(1)redhat HPC包不太了解,以我目前的水平,估計(jì)直接用像OSCAR, ROCKS這樣的套件更容易上手;
(2)調(diào)度管理目前傾向于SGE,認(rèn)識(shí)一些同學(xué)在別的單位管理HPCC,用SGE的比較多,不過似乎OSCAR和ROCKS里都可以用SGE;
(3)主要的存儲(chǔ)都是放在主節(jié)點(diǎn)上的(4*450G 3.5英寸SAS硬盤,RAID5),計(jì)算節(jié)點(diǎn)原則上不存放個(gè)人數(shù)據(jù)。
我們主要做凝聚態(tài)物理的第一性原理計(jì)算,輸入文件只有幾K或者幾十K,輸出文件則有好多個(gè),最大的文件有幾個(gè)G(一般是存儲(chǔ)波函數(shù)之類的),小的只有幾M或者幾十M,但實(shí)際上對(duì)我們最有用的信息都是在這些小文件里。我考慮的是,如果按照常規(guī)的模式把主節(jié)點(diǎn)硬盤當(dāng)作本地硬盤來運(yùn)行程序,那計(jì)算節(jié)點(diǎn)生成的這些幾個(gè)G的大文件在計(jì)算的時(shí)候會(huì)通過千兆網(wǎng)絡(luò)寫回到主節(jié)點(diǎn)上,會(huì)耗費(fèi)時(shí)間和網(wǎng)絡(luò)帶寬;如果先把輸入文件COPY 到計(jì)算節(jié)點(diǎn)上,算完后再把有用的小輸出文件COPY回主節(jié)點(diǎn),這樣實(shí)際上通過網(wǎng)絡(luò)來回走的數(shù)據(jù)量會(huì)小很多。在提交計(jì)算時(shí)寫幾行腳本就可以實(shí)現(xiàn)上述功能,只是如何保證計(jì)算總是在一個(gè)節(jié)點(diǎn)內(nèi)并行還不是太清楚。
當(dāng)然,這是我理論上的想法,不知道實(shí)踐上是否可行,還望各位高手多加指點(diǎn)。

[ 本帖最后由 phonan 于 2008-12-8 11:45 編輯 ]

論壇徽章:
0
7 [報(bào)告]
發(fā)表于 2008-12-08 11:58 |只看該作者

回復(fù) #4 straw 的帖子

謝謝straw的建議,
(1)OSCAR是image based,但我不知道以后硬件升級(jí),加十多個(gè)硬件配置不同的新的節(jié)點(diǎn)之后,OSCAR能否還適用;
(2)不好意思,沒有說清楚磁盤的使用計(jì)劃。目前的規(guī)劃是所有數(shù)據(jù)存儲(chǔ)在主節(jié)點(diǎn)(4*450G 3.5英寸SAS硬盤,RAID5),計(jì)算節(jié)點(diǎn)原則上不存放個(gè)人數(shù)據(jù),最多只是作為計(jì)算生成文件的臨時(shí)存儲(chǔ)(/tmp)。LVM是個(gè)好主意,我去試試;
(3)看來SGE的確是個(gè)好選擇,以后多學(xué)習(xí)這個(gè);
(4)具體以什么樣的方式“盡量使用local disk”呢,是我前面說的使用/tmp的方式嗎?不好意思,我目前只想到這個(gè)辦法。

查了一下"straw"的帖子,“盡量使用local disk”是不是就是類似下面的意思,呵呵
“主要存儲(chǔ)和計(jì)算幾點(diǎn)之間最好在master node上起一個(gè)進(jìn)程,專門負(fù)責(zé)對(duì)計(jì)算節(jié)點(diǎn)的圖片傳輸,也就是節(jié)點(diǎn)獲取計(jì)算資源的時(shí)候不是通過NFS或者其他網(wǎng)絡(luò)文件系統(tǒng)的形式。而是直接向主節(jié)點(diǎn)上的進(jìn)程獲取所要計(jì)算的數(shù)據(jù),計(jì)算完畢以后再通過主節(jié)點(diǎn)上的進(jìn)程回收計(jì)算結(jié)果,這樣就可以繞過海量小文件的問題了!

(5)硬件設(shè)備大約12月底才到,我希望現(xiàn)在可能把一些細(xì)節(jié)弄清楚一些,讓供貨商安裝系統(tǒng)時(shí)盡可能一次性裝好?磥硗耆檬遣惶赡芰,只能以后邊使用邊調(diào)整。謝謝您的建議。

[ 本帖最后由 phonan 于 2008-12-8 12:11 編輯 ]

論壇徽章:
0
8 [報(bào)告]
發(fā)表于 2008-12-08 13:51 |只看該作者
原帖由 wysilly 于 2008-12-8 10:23 發(fā)表
可以考慮用redhat HPC包.用redhat做系統(tǒng)的話,方便.

關(guān)于調(diào)度管理,你選什么,sge,torque+maui?資源分配及串行陣列都是支持的,當(dāng)然主要是免費(fèi).

關(guān)于文件系統(tǒng),用拷來拷去的方式,還是在一個(gè)并行系統(tǒng)下?




有資料么? about RH.

論壇徽章:
0
9 [報(bào)告]
發(fā)表于 2008-12-08 16:41 |只看該作者
原帖由 baif 于 2008-12-8 13:51 發(fā)表




有資料么? about RH.



我可以發(fā)給你,給我你的郵件.

Red Hat 的HPC Solution 是今年9月份在全球啟動(dòng)的,中國(guó)這邊是10月份開始的.

all-in-one方案和ROCKS非常接近,但是個(gè)人認(rèn)為對(duì)于商用計(jì)算用戶來說,比SFDC的ROCKS更棒. 基礎(chǔ)研究的用戶不會(huì)感覺太多差異.

論壇徽章:
0
10 [報(bào)告]
發(fā)表于 2008-12-08 16:52 |只看該作者
原帖由 phonan 于 2008-12-7 22:52 發(fā)表
大家好,最近定了一套HPCC系統(tǒng)有些問題想向大家咨詢一下
說明:
科學(xué)并行計(jì)算用,準(zhǔn)備安裝RHEL5或CENTOS
目前的磁盤的使用規(guī)劃是所有數(shù)據(jù)存儲(chǔ)在主節(jié)點(diǎn)(4*450G 3.5英寸SAS硬盤,RAID5),包括操作系統(tǒng),并行 ...



給你我的看法和建議:

1. 你們做凝態(tài)物理選擇Dell的服務(wù)器來做hpc cluster,真的虧大了。 如果是基礎(chǔ)研究還好,如果是你們學(xué)校老板接項(xiàng)目的話,那些破機(jī)器的效率真的是...

2. 用Intel架構(gòu)多核的平臺(tái),對(duì)你們這種類型的計(jì)算一點(diǎn)好處都沒有.

以上是馬后炮,不過是大實(shí)話,等你們以后有預(yù)算了,買兩臺(tái)4core的AMD64跑跑就知道我說的對(duì)不對(duì)了。

3. 你知道為什么最后你們會(huì)考慮把計(jì)算搞到一個(gè)節(jié)點(diǎn)的8core上跑么? 就是我前面兩點(diǎn)提到的,你們的計(jì)算類型不適合薄節(jié)點(diǎn),你們要用厚節(jié)點(diǎn),沒有預(yù)算購置IB而只能用GbE的話,厚節(jié)點(diǎn)是第一優(yōu)先考慮的。
   如果你選擇 AMD64 4way4c, NuMA開. 你會(huì)發(fā)現(xiàn)性能boost.
   像你們現(xiàn)在這樣,用計(jì)算腳本控制計(jì)算到一個(gè)節(jié)點(diǎn)上,呢么做集群還有什么意思呢?

4.現(xiàn)在你們計(jì)算所處的類型和你們事實(shí)上構(gòu)建的平臺(tái)方案處于矛盾的狀況,要做的是做性能檢查,仔細(xì)檢查延遲發(fā)生在哪里,發(fā)生在單節(jié)點(diǎn)不同cpu之間,還是cpu/memory之間,還是i/o上,還是節(jié)點(diǎn)和節(jié)點(diǎn)的通訊上?
您需要登錄后才可以回帖 登錄 | 注冊(cè)

本版積分規(guī)則 發(fā)表回復(fù)

  

北京盛拓優(yōu)訊信息技術(shù)有限公司. 版權(quán)所有 京ICP備16024965號(hào)-6 北京市公安局海淀分局網(wǎng)監(jiān)中心備案編號(hào):11010802020122 niuxiaotong@pcpop.com 17352615567
未成年舉報(bào)專區(qū)
中國(guó)互聯(lián)網(wǎng)協(xié)會(huì)會(huì)員  聯(lián)系我們:huangweiwei@itpub.net
感謝所有關(guān)心和支持過ChinaUnix的朋友們 轉(zhuǎn)載本站內(nèi)容請(qǐng)注明原作者名及出處

清除 Cookies - ChinaUnix - Archiver - WAP - TOP