近日,科技界巨頭馬斯克攜其xAI團隊在一場備受矚目的直播活動中,正式揭曉了萬眾期待的Grok 3。在前期密集的宣傳攻勢下,Grok 3被賦予了極高的期望,馬斯克甚至將其譽為劃時代的智能突破。
然而,發(fā)布會上的豪情壯志與Grok 3的實際表現(xiàn)形成了鮮明對比。馬斯克宣稱,Grok 3在數(shù)學(xué)、科學(xué)與編程領(lǐng)域的基準測試中已超越所有主流模型,并計劃將其應(yīng)用于SpaceX的火星任務(wù)計算,甚至預(yù)言未來三年內(nèi)將取得諾貝爾獎級別的科研成就。
但令人遺憾的是,媒體在發(fā)布會后對Grok 3 Beta版的測試卻暴露了其短板。面對一個簡單的數(shù)學(xué)問題——“9.11與9.9哪個大?”,號稱最聰明的Grok 3卻未能給出正確答案,這一尷尬表現(xiàn)迅速在網(wǎng)絡(luò)上引發(fā)熱議,網(wǎng)友戲稱其為“不屑回答簡單問題的天才”。
不僅如此,在xAI發(fā)布會直播期間,當Grok 3嘗試分析游戲《流放之路 2》的職業(yè)與升華效果時,也給出了大量錯誤答案,而馬斯克本人在直播中并未察覺這些明顯的錯誤。
盡管在官方PPT中,Grok 3在大模型競技場Chatbot Arena中的表現(xiàn)看似遙遙領(lǐng)先,但深入分析后發(fā)現(xiàn),其與DeepSeek R1和GPT4.0的差距僅為1%到2%,這一微弱優(yōu)勢并不足以支撐起馬斯克前期的豪言壯語。
在資源投入方面,馬斯克透露,Grok 3使用了超過20萬張H100芯片,總訓(xùn)練小時數(shù)高達兩億小時。相比之下,DeepSeek V3僅以2000張H800芯片訓(xùn)練兩個月,便取得了與Grok 3相近的性能,這無疑揭示了隨著模型規(guī)模擴大,性能提升的邊際效應(yīng)愈發(fā)明顯的現(xiàn)狀。
面對外界的質(zhì)疑,馬斯克在社交媒體上回應(yīng)稱,當前的Grok 3僅為測試版,完整版將在未來幾個月內(nèi)推出,并誠邀用戶反饋使用中的問題。這一表態(tài)似乎暗示著,Grok 3仍有改進的空間,而馬斯克及其團隊正致力于解決當前存在的問題。