科技界迎來一項重大進展,英偉達在AI模型訓練領域取得了突破性成就。該公司最新發布的Normalized Transformer(nGPT)架構,在保持模型穩定性和準確性的同時,大幅縮短了訓練時間,最高可達原來的二十分之一。
nGPT架構的核心在于“超球面學習”概念,通過將關鍵組件映射到超球面表面,確保模型各層在訓練中的平衡,從而創造更穩定高效的學習過程。
與傳統的GPT模型相比,nGPT在速度和效率上均表現出色。在OpenWebText數據集測試中,nGPT對于長達4000個tokens的文本輸入,所需訓練輪次遠少于傳統模型。
nGPT還將歸一化和表示學習結合成一個統一框架,簡化了模型架構,便于擴展和適應更復雜的混合系統。這一創新設計有望為AI系統的發展帶來新的突破。