【智快網(wǎng)】5月13日消息,近日,備受矚目的網(wǎng)絡(luò)通信領(lǐng)域國際頂級會議SIGCOMM2024公布了其收錄的論文名單。在這份名單中,中國企業(yè)阿里云表現(xiàn)出色,共有6篇論文被選中。其中一篇詳細闡述了阿里云最新研發(fā)的智算集群網(wǎng)絡(luò)架構(gòu)HPN 7.0,該論文在SIGCOMM的歷史上標志著首次涉及AI智算集群網(wǎng)絡(luò)架構(gòu)領(lǐng)域。據(jù)悉,SIGCOMM2024將于今年8月在悉尼舉行線下會議。
隨著大型模型的熱度不斷升溫,AI基礎(chǔ)設(shè)施的需求也日益嚴苛。為了滿足這一時代的需求,阿里云針對性地研發(fā)了HPN7.0架構(gòu)。該架構(gòu)特別針對大模型訓(xùn)練過程中的特點,如規(guī)模大、數(shù)據(jù)流多、突發(fā)性強以及對穩(wěn)定性的高要求,進行了獨特的設(shè)計。它采用了“雙上聯(lián)+多軌+雙平面”的網(wǎng)絡(luò)結(jié)構(gòu),并配備了最新一代的51.2Tbps單芯片以太網(wǎng)交換機和400G高性能網(wǎng)卡。此外,通過自研的Solar-RDMA和ACCL通信庫,實現(xiàn)了單層千卡、兩層萬卡的高效穩(wěn)定互聯(lián)。
據(jù)智快網(wǎng)了解,自2023年9月起,HPN7.0已在阿里云進行大規(guī)模部署。與上一代架構(gòu)相比,在典型場景下,大模型的訓(xùn)練性能提升了14.9%,同時顯著增強了智能計算網(wǎng)絡(luò)的穩(wěn)定性。近期,阿里云發(fā)布的通義千問2.5版大模型就是基于HPN7.0高性能網(wǎng)絡(luò)架構(gòu)進行訓(xùn)練的。與2.1版本相比,新模型在理解能力、邏輯推理、指令遵循和代碼能力方面分別提升了9%、16%、19%和10%,其中文性能已全面超越GPT-4Turbo。
阿里云基礎(chǔ)設(shè)施網(wǎng)絡(luò)負責人蔡德忠指出,公司自2017年就開始了對端網(wǎng)融合可預(yù)期網(wǎng)絡(luò)的探索。而HPN7.0不僅延續(xù)了這一探索,更將端網(wǎng)融合的體系結(jié)構(gòu)從網(wǎng)絡(luò)協(xié)議棧層面擴展到網(wǎng)絡(luò)架構(gòu)和通信庫,實現(xiàn)了針對AI智能計算時代的新型網(wǎng)絡(luò)集群架構(gòu)創(chuàng)新。
網(wǎng)絡(luò)架構(gòu)作為網(wǎng)絡(luò)技術(shù)和系統(tǒng)的核心,其重大創(chuàng)新極為罕見。此前,SIGCOMM關(guān)于傳統(tǒng)數(shù)據(jù)中心網(wǎng)絡(luò)架構(gòu)的經(jīng)典文章是Google提出的Jupiter網(wǎng)絡(luò),它已成為行業(yè)內(nèi)的標準架構(gòu)模式。專家表示,阿里云提出的新一代網(wǎng)絡(luò)架構(gòu)HPN7.0有望成為下一代AI高性能網(wǎng)絡(luò)架構(gòu)的新標準。
回顧SIGCOMM近50年的歷史,僅有50余篇論文來自中國大陸,其中阿里云就占據(jù)了25篇,是國內(nèi)科技公司中收錄最多的。這反映了阿里云在高性能網(wǎng)絡(luò)領(lǐng)域的深厚底蘊和持續(xù)創(chuàng)新。阿里云不僅提出了端網(wǎng)融合的可預(yù)期網(wǎng)絡(luò)技術(shù)體系,還在業(yè)界率先實現(xiàn)了RDMA低延遲網(wǎng)絡(luò)和智算集群網(wǎng)絡(luò)架構(gòu)HPN 7.0等先進技術(shù)的廣泛應(yīng)用。阿里巴巴也因此榮獲權(quán)威機構(gòu)AMiner評選的全球十大最具影響力的網(wǎng)絡(luò)研究機構(gòu)之一。