智快網 - 新科技與新能源行業網絡媒體

          中國DeepSeek-R1,能否成為AI推理領域的新星?

             發布時間:2025-01-31 10:53 作者:陸辰風

          近日,Nature自然雜志刊登了一則令人矚目的消息:中國研發的大型語言模型DeepSeek-R1在科學界引發了廣泛熱議,被視為OpenAI推出的o1推理模型的有力競爭對手,且更加經濟實惠、開放性強。

          據悉,DeepSeek-R1采用逐步生成響應的方式,這一機制與人類推理過程頗為相似。這使得它在解決科學問題方面展現出超越早期語言模型的卓越能力,預示著該模型在科研領域或將大有可為。1月20日發布的初步測試結果顯示,DeepSeek-R1在化學、數學及編碼等領域的特定任務上,表現與OpenAI的o1模型旗鼓相當。o1模型曾在去年9月發布時驚艷四座,而DeepSeek-R1的出現無疑再次刷新了人們的認知。

          英國人工智能咨詢公司DAIR.AI的聯合創始人埃爾維斯·薩拉維亞在社交媒體上感慨道:“這簡直太瘋狂了,完全出乎我的意料。”

          DeepSeek-R1之所以備受矚目,還源于其開放性。該模型由杭州初創公司DeepSeek發布,并遵循麻省理工學院的許可證,允許研究人員自由重復使用。盡管其訓練數據尚未公開,但這一舉措已足以讓DeepSeek-R1在同類模型中脫穎而出。相比之下,OpenAI的o1及其他模型,包括其最新成果o3,則如同黑匣子一般,缺乏透明度。

          在成本方面,DeepSeek-R1同樣展現出巨大優勢。盡管該公司尚未公布訓練該模型的全部成本,但其界面收費僅為o1運行成本的三十分之一。DeepSeek還推出了R1的迷你精簡版本,旨在滿足計算能力有限的研究人員的需求。德國埃爾朗根馬克斯普朗克光科學研究所的馬里奧·克倫表示:“使用o1進行實驗的成本超過370美元,而使用R1的成本則不到10美元。這一巨大差異無疑將對其未來的應用產生深遠影響。”

          DeepSeek-R1的成功發布,標志著中國大型語言模型(LLM)領域的蓬勃發展。DeepSeek從一家對沖基金中分拆而來,上個月憑借一款名為V3的聊天機器人一舉成名。盡管預算有限,但V3的表現卻超越了主要競爭對手。專家估算,租用訓練V3所需的硬件成本約為600萬美元,而meta的Llama 3.1 405B則高達6000萬美元,計算資源是V3的11倍。

          盡管面臨美國出口管制的限制,中國公司在獲取為人工智能處理而設計的最佳計算機芯片方面面臨挑戰,但DeepSeek仍成功研發出R1。這一事實表明,高效利用資源比單純的計算規模更為重要。西雅圖的人工智能研究員Fran?ois Chollet對此表示:“R1來自中國,這證明了在資源有限的情況下,創新算法同樣能夠取得突破。”

          DeepSeek的進展也引發了美國技術專家的關注。華盛頓州貝爾維尤的技術專家Alvin Wang Graylin認為,美國在人工智能領域的領先優勢已經大幅縮小。他呼吁中美兩國應采取合作方式,共同推動人工智能的發展,而非陷入無休止的軍備競賽。

          在LLM領域,模型通過訓練數十億個文本樣本,學習數據中的模式,從而預測句子中的后續內容。然而,LLM容易捏造事實,且難以進行推理。為解決這一問題,DeepSeek-R1采用了與o1相似的思路鏈方法,以提高解決復雜任務的能力。該方法包括回溯和評估其方法,以提高準確性。DeepSeek通過對V3進行強化學習微調,從而打造出R1。強化學習會獎勵模型得出正確答案,并以概述其思維的方式解決問題。

          愛丁堡大學的人工智能研究員Wenda Li指出,計算能力有限促使DeepSeek在算法上進行創新。在強化學習過程中,該團隊估算了模型在每個階段的進度,而非使用單獨的網絡進行評估。這一方法有助于降低培訓和運行成本。同時,研究人員還采用了混合專家架構,該架構允許模型僅激活與每項任務相關的部分,進一步提高了效率。

          在基準測試中,DeepSeek-R1在加州大學伯克利分校研究人員編寫的數學問題MATH-500中取得了97.3%的優異成績,并在一項名為Codeforces的編程競賽中擊敗了96.3%的人類參與者。這些成績與o1不相上下。盡管o3未被納入比較范圍,但DeepSeek-R1的出色表現已足以證明其強大的推理和概括能力。

          然而,基準測試是否真正反映了模型的推理或概括能力,還是僅僅反映了其通過此類測試的能力,仍是一個值得探討的問題。但劍橋大學的計算機科學家Marco Dos Santos認為,由于R1是開放的,研究人員可以訪問其思路,這使得模型的推理過程具有更好的可解釋性。這一特點將有助于科學家更深入地了解R1的工作原理,并為其未來的應用提供有力支持。

          目前,科學家們已經開始測試R1的能力。克倫要求兩個競爭模型對3000個研究想法進行有趣程度排序,并將結果與人工排名進行比較。盡管在這一衡量標準下,R1的表現略遜于o1,但在量子光學的某些計算上,R1卻勝過了o1。這一結果無疑令人印象深刻,也進一步證明了DeepSeek-R1在特定領域的卓越表現。

           
           
          更多>同類內容
          全站最新
          熱門內容
          本欄最新
           
          智快科技微信賬號
          微信群

          微信掃一掃
          加微信拉群
          電動汽車群
          科技數碼群

          国产一区二区精品久久岳| 日韩国产一区二区| 亚洲av无码乱码国产精品fc2| 99久久国产精品免费一区二区| 日韩AV无码久久一区二区| 日韩精品人妻系列无码专区| 亚洲AV日韩AV永久无码久久 | 久久无码国产专区精品| 国产麻豆精品久久一二三| 国产精品成人99一区无码| 国产精品久久久久久久久| 日韩精品人妻系列无码专区免费| 国产亚洲美女精品久久久久狼| 国产成人精品a视频一区| 日韩在线精品一二三区| 国产精品日韩专区| 嫩草影院在线观看精品视频| 久久久九九有精品国产| 中文字幕日韩精品无码内射| 国产精品一在线观看| 日日夜夜精品视频| 久久精品国产亚洲av麻豆图片| 久久久精品2019中文字幕之3| 国内精品91最新在线观看| 久久久久久一区国产精品| 亚洲欧洲久久久精品| 精品熟女碰碰人人a久久| 久九九久福利精品视频视频| 久久久久国产日韩精品网站| 日韩av激情在线观看| 久久久精品久久久久久96| 国产精品久久影院| 亚洲精品国产福利片| 人妻少妇精品视中文字幕国语 | 亚洲精品国产国语| 69SEX久久精品国产麻豆| 99精品国产第一福利网站| 中文天堂最新版在线精品| 亚洲精品视频在线观看免费| 久久精品中文騷妇女内射| 久久精品人人做人人爽电影蜜月|