科大訊飛近日發布了其最新的投資者關系活動記錄,詳細闡述了DeepSeek和星火大模型X1的最新進展。記錄顯示,科大訊飛正在全力推進星火X1新版本的訓練,這一版本預計將在3月內完成,目標是在數學答題和過程思維鏈能力上全面對標甚至超越OpenAI的o1模型。
科大訊飛強調,星火X1新版本的成功離不開其在深度推理模型上的深厚積累。通過與中國教科院等教育專家的緊密合作,科大訊飛正致力于將X1深度推理模型與教育專業知識相結合,通過強化學習和反思機制,生成符合教育教學需求的“教學思維鏈”。這一創新旨在提高復雜場景推理的邏輯正確性、專業性和可解釋性,并計劃率先應用于教師助手、作業批改和輔助教學等全系產品創新中,預計將在2025年世界數字教育大會上發布教育專屬大模型和創新應用。
在DeepSeek方面,科大訊飛提到了R1版本的快速對標o1模型的創新點。R1采用了R1-Zero強化學習訓練方案,直接在DeepSeek-V3-base預訓練模型上進行大規模強化學習訓練,無需依賴任何有監督微調(SFT),即可在數學、代碼等推理任務上接近o1模型的效果。這一成果不僅減少了人工標注推理過程數據的需求,還體現了科大訊飛在深度推理模型上的技術創新能力。
值得注意的是,科大訊飛在深度推理模型上的進展并非一帆風順。由于只能使用國產算力,科大訊飛在適配和優化華為昇騰910B算力上花費了額外的時間。然而,這些努力最終取得了顯著成效,星火深度推理模型X1雖然參數較小(僅130億),但依靠算法和數據優勢,已達到與OpenAI o1-preview對標的水平。科大訊飛表示,隨著國產算力的逐步到位和模型參數的增加,有信心實現數學答題和過程思維鏈能力的全面超越。
為了降低深度推理模型的訓練和推理成本,科大訊飛在軟硬件結合方面進行了多項深度工程優化創新。與DeepSeek直接在英偉達H800卡上開展工程優化不同,科大訊飛選擇了更難的全國產算力路線。通過與華為的緊密合作,科大訊飛攻克了一系列技術難題,將訓練效率從最初的30%-50%優化到了85%-95%以上。特別是在萬卡網絡通信帶寬的利用率上,科大訊飛星火做到了95%,超越了DeepSeek的93%。
科大訊飛還指出,雖然陸續有公司宣布可以在國產算力平臺上提供大模型的推理服務,但目前只有訊飛星火一家是訓練和推理均在國產算力上進行的。僅用1萬張910B國產算力卡,科大訊飛不僅取得了大模型研發上的顯著成果,還做了大量國產算力平臺上的適配和效率優化工作。這些努力體現了科大訊飛在追求國產算力極致效率上的技術實力和戰略勇氣。
科大訊飛表示,未來將繼續加大在深度推理模型上的研發投入,推動星火大模型在教育、醫療等領域的廣泛應用。同時,也將持續關注國產算力的發展動態,不斷優化和提升星火大模型在國產算力平臺上的性能和效率。