科技媒體servethehome近日受邀參觀了由xAI公司打造的全球最大AI訓(xùn)練集群——Colossus,這一壯舉展示了AI技術(shù)的迅猛發(fā)展。據(jù)悉,xAI在短短122天內(nèi)便成功搭建了10萬張英偉達(dá)H100 GPU,并計劃未來再增加10萬張,其中包括5萬張更先進(jìn)的H200。
Colossus集群配備了英偉達(dá)HGX H100服務(wù)器,每臺服務(wù)器內(nèi)含8張H100 GPU,所有服務(wù)器均在Supermicro的4U水冷系統(tǒng)中高效運(yùn)行。每個機(jī)架可容納8臺服務(wù)器,組成1個含有512個GPU的陣列,整個集群則擁有超過1500個GPU機(jī)架。
為了確保高效的數(shù)據(jù)傳輸,每個GPU都配備了400GbE的網(wǎng)絡(luò)接口控制器,使每臺HGX H100服務(wù)器達(dá)到3.6 Terabit每秒的以太網(wǎng)帶寬。xAI采用了Supermicro的4U通用GPU系統(tǒng),這些系統(tǒng)憑借先進(jìn)的液冷技術(shù),提升了散熱效率,確保了高性能計算的穩(wěn)定性。
此次展示活動得到了埃隆·馬斯克及其團(tuán)隊的特別批準(zhǔn),由于構(gòu)建全球最大AI集群的敏感性,部分內(nèi)容在視頻中進(jìn)行了模糊處理。Supermicro作為此次巡展的贊助商,進(jìn)一步彰顯了其在AI行業(yè)中的重要地位。