近日,據南華早報報道,阿里巴巴旗下的云計算服務部門宣布了一項重大進展,在其平臺上推出了名為DeepSeek的人工智能(AI)模型。此前,已有其他大型科技公司向客戶提供這家中國初創公司的開源系統。
阿里云通過微信發布的聲明詳細介紹了這一創新。聲明指出,用戶可以在其平臺上實現從模型訓練、部署到推理的全過程,而且無需編寫任何代碼。這一平臺極大地簡化了模型開發的流程,為開發者和企業用戶帶來了前所未有的快捷、高效和便利的AI開發與應用體驗。
阿里云用戶現在可以登錄其PAI模型庫,這是一個包含多個開源大型語言模型(LLM)的資源庫。在這里,用戶可以選擇DeepSeek的AI模型,并將其部署到自己的推理和文本生成應用程序中。PAI模型庫中的DeepSeek-V3和DeepSeek-R1是這家杭州初創公司最先進的AI模型,據稱它們的開發成本和計算能力僅為構建主要LLM技術所需成本的一小部分。
阿里云還提供了這些模型的精簡版本,如DeepSeek-R1-Distill-Qwen-7B。LLM技術是OpenAI的ChatGPT等生成式AI服務背后的關鍵技術,而開源則使得公眾可以訪問軟件程序的源代碼,從而允許第三方開發人員對其進行修改、共享設計、修復鏈接或擴展功能。
蒸餾是一種訓練較小模型以模仿較大、更復雜模型行為的方法,同時顯著降低計算成本。這種做法在希望縮小模型規模同時保持類似性能的公司中非常普遍。阿里云上個月發布的全新Qwen 2.5-Max模型,在性能上與DeepSeek-V3相媲美,這一舉措反映了大型科技公司對這家初創公司模型的日益支持。
華為技術有限公司的云計算部門也加入了這一行列。在農歷新年假期期間,他們與人工智能基礎設施初創公司SiliconFlow合作,使DeepSeek的V3和R1模型能夠在華為的Ascend平臺上供用戶使用。華為云在一份聲明中表示,該平臺的性能與DeepSeek模型在全球高端圖形處理單元上的運行情況相匹配。
云計算技術使企業能夠通過互聯網管理或分發一系列軟件和其他數字資源,就像電網中的電力一樣,是一種按需服務。這些資源存儲在數據中心內,為企業提供了極大的靈活性和效率。中國社交媒體和視頻游戲巨頭騰訊控股也開始在其云計算平臺上支持DeepSeek的R1推理模型,用戶只需在該平臺上執行一個簡單的三分鐘設置過程。
頂級AI芯片設計師Nvidia也宣布,自周四起向其NIM微服務的用戶開放DeepSeek-R1。他們稱該模型為需要邏輯推理、數學、編碼和語言理解的任務提供了最先進的推理能力、高推理效率以及領先的準確性。OpenAI的投資者微軟上周早些時候在其Azure云計算平臺和開發者平臺GitHub上推出了R1支持,允許客戶構建在Copilot+個人電腦上本地運行的AI應用程序。電子商務巨頭亞馬遜也允許開發人員通過亞馬遜網絡服務使用R1創建應用程序。
然而,盡管DeepSeek的高性價比AI模型受到了廣泛關注,但一些專家對其突破的意義表示了質疑。復旦大學計算機科學系教授鄭小青指出,DeepSeek技術報告中的V3模型的訓練費用并未包括與架構、算法或數據的前期研究和實驗相關的成本。鄭教授在接受采訪時表示,DeepSeek的成功主要源于工程優化,對芯片購買或出貨的影響并不會特別巨大。