在農歷新年之際,科技界的焦點并未因節日氛圍而黯淡,反而因一家杭州“小公司”DeepSeek的崛起而更加熾熱。DeepSeek以其創新的AI技術,為整個行業帶來了新的活力和思考。
自DeepSeek-V3模型去年年底發布以來,其性能便備受矚目。該模型在多項評測中超越了Qwen2.5-72B和Llama-3.1-405B等開源模型,與閉源模型GPT-4o和Claude-3.5-Sonnet不相上下。這一成就迅速吸引了業內人士的廣泛關注,但DeepSeek的真正“出圈”還要等到其手機應用上線前夕。
1月20日,DeepSeek再次發力,推出了推理模型DeepSeek-R1。該模型在性能上實現了對OpenAI-o1正式版的對標,并且DeepSeek大方地公開了DeepSeek-R1的訓練技術,同時開源了模型權重。對普通用戶而言,DeepSeek-R1更是直接在官網上免費開放使用,這一舉措無疑為AI技術的普及和應用注入了新的動力。
DeepSeek-R1不僅性能卓越,而且使用靈活。它支持聯網搜索信息,增加了使用的便捷性。同時,作為一款采用CoT思維鏈技術的推理模型,DeepSeek-R1能夠向用戶展示其思考過程,讓用戶直觀感受到大模型技術的實力。這一特點在海內外全網引發了熱烈討論,DeepSeek也因此承受了巨大的訪問壓力和惡意攻擊。
DeepSeek的成功并非偶然。其兩大核心技術——MoE混合專家模型和RL強化學習,為其帶來了顯著的成本優勢和性能提升。MoE架構通過將一個復雜問題分解成多個更小、更易于管理的子問題,并由不同的專家網絡分別處理,從而大大降低了推理成本。而RL強化學習則完全依賴環境反饋來優化模型行為,使模型在訓練中自主發展出自我驗證、反思推理等復雜行為,達到ChatGPT o1級別的能力。
盡管DeepSeek-V3和DeepSeek-R1已經足夠強大,但他們仍然只是“大語言模型”,不具備多模態能力。然而,DeepSeek并未止步于此。1月28日凌晨,DeepSeek開源了全新的視覺多模態模型Janus-Pro-7B。該模型通過將視覺編碼過程拆分為多個獨立的路徑,解決了以往框架中的局限性,同時仍采用單一的統一變換器架構進行處理。這一創新使Janus-Pro在Geneval和DPG-Bench基準測試中擊敗了Stable Diffusion和OpenAI的DALL-E 3。
DeepSeek的崛起引起了AI大模型領域其他公司的關注。在DeepSeek-R1發布后不久,阿里通義團隊便推出了Qwen2.5-Max模型。該模型使用超過20萬億token的預訓練數據及精心設計的后訓練方案進行訓練,性能表現與業界領先的模型相當。Qwen2.5-Max的發布不僅展示了阿里在AI技術上的實力,也反映了DeepSeek對行業的影響力和推動力。
面對DeepSeek等競爭對手的壓力,OpenAI的CEO阿爾特曼也表示將采取一系列措施來優化成本和提升用戶體驗。他透露,未來的ChatGPT o3-mini模型將開放給免費用戶使用,Plus會員則每天有100條請求的額度。同時,新的ChatGPT Operator功能也將盡快向Plus會員開放。