英偉達(dá)近日正式揭曉了其Blackwell GPU架構(gòu)的技術(shù)藍(lán)圖,這份詳盡的白皮書不僅揭示了GeForce RTX 50系列顯卡的強(qiáng)大內(nèi)核,更讓人們看到了它在設(shè)計上的重要回歸。引人注目的是,Blackwell架構(gòu)中的所有單精度CUDA核心,都同時具備了處理FP32與INT32數(shù)據(jù)的能力,這一特性讓人不禁聯(lián)想到九年前的Pascal架構(gòu),那時的英偉達(dá)也是采用了類似的設(shè)計理念。
Blackwell架構(gòu)的流式多處理器(SM)設(shè)計,充分展示了這一技術(shù)特點。與之形成鮮明對比的是,Pascal架構(gòu)雖同樣支持FP32與INT32的并行處理,但在隨后的Volta和Turing架構(gòu)中,英偉達(dá)卻選擇了將CUDA核心分為兩組,分別專注于INT32和FP32的處理,每組數(shù)量相等,實現(xiàn)了1:1的比例分配。
然而,在Ampere和Ada架構(gòu)中,英偉達(dá)又做出了新的嘗試。在Ampere架構(gòu)中,每個SM的四個處理塊之一配備了16個既能處理FP32又能處理INT32的單元,以及另外16個專門用于FP32處理的單元。這一設(shè)計在Ada架構(gòu)中得到了延續(xù),進(jìn)一步證明了英偉達(dá)在GPU設(shè)計上的不斷探索與創(chuàng)新。
Blackwell架構(gòu)的這一統(tǒng)一CUDA設(shè)計,使得每個SM的INT32整數(shù)運算能力相較于Ada架構(gòu)實現(xiàn)了翻倍。但值得注意的是,盡管Blackwell架構(gòu)的CUDA核心可以同時支持FP32和INT32兩種模式,但在任何給定的時鐘周期內(nèi),它只能選擇其中一種模式進(jìn)行運算。英偉達(dá)表示,這一設(shè)計決策是為了在滿足不同計算需求的同時,保持架構(gòu)的靈活性和高效性。
英偉達(dá)還強(qiáng)調(diào)了Blackwell架構(gòu)與Ada架構(gòu)在應(yīng)用場景上的不同。Ada架構(gòu)的SM主要是為標(biāo)準(zhǔn)著色器設(shè)計和優(yōu)化的,而Blackwell架構(gòu)的SM則更加注重神經(jīng)著色器的應(yīng)用和優(yōu)化。這一轉(zhuǎn)變不僅反映了英偉達(dá)對GPU應(yīng)用場景的深入理解和把握,也預(yù)示著未來GPU技術(shù)發(fā)展的新方向。