原帖由 prolj 于 2008-12-31 10:03 發(fā)表
先從Cell說起,Cell是異構(gòu)多核的,性能好,主頻高啊。
Intel又仿制了一個Larrabee顯卡,只是工藝還是90納米的,但是Arch上和Cell差不多。
再說Intel的Atom,如果說幾十上百個Atom核的多核U,現(xiàn)在來說還為時過 ...
功耗目前是幾百瓦,也已經(jīng)低的離譜了
原帖由 system888net 于 2008-12-31 23:47 發(fā)表
這是現(xiàn)存在的一些說法和觀點(本人認(rèn)為僅是某個角度的說法,并不排斥大家各自的觀點):
使用顯示芯片來進(jìn)行運算工作,和使用 CPU 相比,主要有幾個好處:
1. 顯示芯片通常具有更大的內(nèi)存帶寬。例如,NVIDIA ...
原帖由 system888net 于 2009-1-1 00:26 發(fā)表
一種可能是將來各個板卡的芯片的能力越來越強,都會是一個獨立的計算單元(如GPU),因此異構(gòu)的計算概念有了變化,從不同的機(jī)器異構(gòu)擴(kuò)展到了同一個機(jī)器里不同處理單元的異構(gòu)協(xié)同.
原帖由 prolj 于 2009-1-1 00:26 發(fā)表
其實就是這個啊,就是DSP多了倆,強大了點,一樣的。和你的設(shè)計思路也是一樣的啊,只是你用fpga代替了dsp。要不是你的思路在前,我也不會那么肯定Cell這種異構(gòu)多核。
原帖由 cjaizss 于 2009-1-1 01:00 發(fā)表
呵呵,完了半天,我還以為是啥新花樣呢,呵呵
不過,在具體設(shè)計的時候,是選擇dsp還是fpga還是要講究的,fpga雖然看上去仿佛是上上選,但它屬于硬件級控制。dsp屬于軟件控制,可以很大程度的發(fā)揮軟件的這種 ...
原帖由 cjaizss 于 2009-1-1 01:33 發(fā)表
對于fpga的設(shè)計,不應(yīng)該站在軟件角度上去思考,而應(yīng)該站在硬件的角度上思考問題,設(shè)計fpga的時候,要想的是電路的樣子,電路每時每刻是一個什么狀態(tài),而不是軟件上執(zhí)行到哪一句了。verilog的設(shè)計和C的設(shè)計差別還 ...
原帖由 cjaizss 于 2009-1-1 02:08 發(fā)表
其實C編譯的優(yōu)化說來說去就那么幾種類型。verilog的優(yōu)化其實也就那么幾種類型。兩種語言都和各自所服務(wù)對象的最終形式比較接近。
verilog的調(diào)試和C語言調(diào)試一樣,也可以從模塊開始調(diào)試起。所以害怕如果錯一點, ...
原帖由 system888net 于 2009-1-1 10:59 發(fā)表
沒錯,沒有十全十美的事情.
當(dāng)不能直接訪問主存的時候就要向GPU里傳送數(shù)據(jù),這就要評估傳輸時間和計算時間的代價是否值得這樣做。
原帖由 bshawk 于 2009-1-1 19:07 發(fā)表
TI的DaVinci SOC, OMAP都是這種ARM+DSP的雙Core結(jié)構(gòu),DSP core也是可以訪問Memory的,可以提高不錯的效率。個人覺得,還是好處多于壞處,當(dāng)然得小心使用!
CUDA(Compute Unified Device Architecture),顯卡廠商NVidia推出的運算平臺。
隨著顯卡的發(fā)展,GPU越來越強大,而且GPU為顯示圖像做了優(yōu)化。在計算上已經(jīng)超越了通用的CPU。如此強大的芯片如果只是作為顯卡就太浪費了,因此N卡廠商推出CUDA,讓顯卡可以用于圖像計算以外的目的。
目前只有G80平臺的N卡才能使用CUDA,工具集的核心是一個C語言編譯器。G80中擁有128個單獨的ALU,因此非常適合并行計算,而且數(shù)值計算的速度遠(yuǎn)遠(yuǎn)優(yōu)于CPU。
CUDA的SDK中的編譯器和開發(fā)平臺支持Windows、Linux系統(tǒng),可以與Visual Studio2003集成在一起。
目前這項技術(shù)處在起步階段,僅支持32位系統(tǒng),編譯器不支持雙精度數(shù)據(jù)等問題要在晚些時候解決。當(dāng)然還有就是Geforce8系列顯卡高昂的價格問題了。
在CUDA中,GPU不能直接訪問主內(nèi)存,不知道將來體系是否會有變化?
如果能直接訪問就更好
原帖由 fineamy 于 2009-1-2 23:09 發(fā)表
http://zhidao.baidu.com/question/53059187.html?fr=qrl
猜想下執(zhí)行流程:
專用編譯器編譯 -> 程序分兩部分,一部分是CPU,另一部分是GPU跑的代碼 -> CPU跑所謂GPU宿主機(jī)代碼,將GPU代碼下載到GPU內(nèi)存中 ...
原帖由 cjaizss 于 2009-1-3 00:52 發(fā)表
多核么,恩,架構(gòu)還是有區(qū)別的。你認(rèn)為這種分布式的結(jié)構(gòu)一定好嗎?我看也不見得,各有特點吧。
再者,分布式也不年輕了,研究了那么多年,以前一般是計算機(jī)之間,現(xiàn)在可以在嵌入式內(nèi)部玩。
分布式的概念花樣炒 ...
......我蒙一下,估計最后也破產(chǎn)。
原帖由 prolj 于 2009-1-8 15:54 發(fā)表
如果是傳統(tǒng)同構(gòu)多核的HPC上的應(yīng)用豐富或者好寫的話,NV這種異構(gòu)多核HPC上應(yīng)該是一樣的,因為GPU和CPU的地址空間分開,而GPU那塊仍然是同構(gòu)多核的。而且在編譯上沒什么新東西,仍然是粗細(xì)粒度并行,在循環(huán)上上使 ...
原帖由 prolj 于 2009-1-10 12:09 發(fā)表
x86這種U,一個乘法操作要N多cycle,流水線停頓了又要N多cycle...還是x86跑OS,GPU并行計算這樣的配合不錯。
NV給Open64做了不少工作,Open64編譯出來代碼的效率也的確不錯。GCC在優(yōu)化和并行方面的確比較落后。
原帖由 beepbug 于 2009-1-11 07:55 發(fā)表
早期的CPU,沒有浮點處理能力,浮點計算由軟件來做。后來出現(xiàn)了浮點處理器,以硬件來做,速度就快多了。
8086加上浮點處理器8087就是這樣。這種方式叫協(xié)處理(8087的確切叫法就是浮點協(xié)處理器)。當(dāng)8086執(zhí)行到 ...
原帖由 rawa9999 于 2009-1-11 16:27 發(fā)表
有一個C語言編譯器了,其他就好辦了,期待程序員們向這個計算平臺移植程序,顯卡的計算能力確實超越CPU了,這是一個好現(xiàn)象,打破intel的壟斷芯片地位。
原帖由 rawa9999 于 2009-1-11 18:17 發(fā)表
并行處理是多個處理核心同時具備統(tǒng)一的指令集,協(xié)處理和主處理器擁有各自的指令集,這是最大的區(qū)別!指令調(diào)度則類似!
原帖由 rawa9999 于 2009-1-11 21:03 發(fā)表
基于Gpu寫一個OS,或許是一個新的機(jī)會!各位大牛牽頭搞一個linux移植上去試試!
可能還需要bios和控制芯片支持,這些東西對于GPU制造商不是什么難事,期待這項技術(shù)的發(fā)展,哪天只插個顯卡就OK了,這也是對inte ...
原帖由 fineamy 于 2009-1-11 20:58 發(fā)表
在CUDA中,GPU應(yīng)該通過AGP高速接口與CPU架起橋梁。
CPU擁有所有外設(shè)資源即可以直接訪問任何外部資源。最關(guān)鍵的是主存
GPU不擁有所有外設(shè)的訪問權(quán)。比如硬盤等。也沒有直接訪問主存的權(quán)利,需要通過CPU間接訪問 ...
I/O速度差別很多時候不是1倍2倍的差別,而是數(shù)量級的差別。所以,cache(硬cache以及軟cache)是多么的重要啊,呵呵。
中斷方式最早出來的原因記得好象也是因為I/O太慢
原帖由 cjaizss 于 2009-1-10 12:37 發(fā)表
GCC的優(yōu)化倒不是比較落后,而是初衷就不同。
GCC從一開始就要把它變成一個通用編譯器,通用編譯器的原則就是不偏袒哪個處理器。如果要在哪個處理器上實現(xiàn)特殊的處理,那幾乎是哪個CPU公司要用,那么公司自己 ...
原帖由 rawa9999 于 2009-1-11 18:17 發(fā)表
并行處理是多個處理核心同時具備統(tǒng)一的指令集,協(xié)處理和主處理器擁有各自的指令集,這是最大的區(qū)別!指令調(diào)度則類似!
原帖由 rawa9999 于 2009-1-13 19:48 發(fā)表
理論上的東西不想多說,現(xiàn)在說道多處理就是具備相同指令集的多處理器,不知道那些不同指令集的多處理有什么應(yīng)用?比如哪一款處理器是采用不同指令集的并行多處理?
原帖由 rawa9999 于 2009-1-14 07:04 發(fā)表
呵呵,頗多理論家,你說的非對稱多處理現(xiàn)在等同于CPU內(nèi)部的不同的計算單元,早期的CPU比較落后可能采用非對稱的方式,現(xiàn)在這種非對稱方式等同于CPU內(nèi)部的計算單元,現(xiàn)在說道并行多處理就是對稱并行多處理,對稱 ...
原帖由 rawa9999 于 2009-1-14 07:26 發(fā)表
已經(jīng)說過了,兩個處理器都有mov指令就叫指令集相同嗎?都有矢量計算即使矢量計算指令一樣,也不能說兩個CPU的指令集相同!
原帖由 rawa9999 于 2009-1-14 09:37 發(fā)表
非對稱處理可能應(yīng)用于實時系統(tǒng)中,飛機(jī)控制、車床控制,但現(xiàn)在這些地方不需要大規(guī)模的并行計算,一個處理器就解決了,并行計算至少在現(xiàn)在肯定是對稱的處理器,確實很多科研單位可能研究非對稱處理機(jī),但是非對稱 ...
原帖由 rawa9999 于 2009-1-14 07:26 發(fā)表
已經(jīng)說過了,兩個處理器都有mov指令就叫指令集相同嗎?都有矢量計算即使矢量計算指令一樣,也不能說兩個CPU的指令集相同!
歡迎光臨 Chinaunix (http://www.72891.cn/) | Powered by Discuz! X3.2 |