在人工智能領域,一支年輕的團隊正以驚人的速度崛起,他們的名字叫做DeepSeek。近期,DeepSeek發布的DeepSeek-v3大模型,以僅為Llama 3 405B模型1/11的算力,實現了超越前者的性能,這一成就迅速在AI圈內引起了轟動。
隨著DeepSeek-v3的發布,關于該團隊的各種傳聞也隨之而來,其中最為引人注目的是“雷軍開出千萬年薪挖角DeepSeek研究員羅福莉”的消息。這一傳聞不僅讓科技圈沸騰,更讓全網都對這支神秘的團隊充滿了好奇。
DeepSeek究竟有何魅力?為何能吸引如此多的關注?從各種資料中,我們可以發現,這支團隊的最大特點就是年輕和充滿活力。團隊成員中,應屆生、在讀生占據了相當大的比例,特別是來自清華大學和北京大學的應屆生,更是團隊中的佼佼者。
在這些年輕的面孔中,不乏已經在學術界嶄露頭角的佼佼者。例如,有的成員在DeepSeek搞研究的同時,其博士學位論文還獲得了獎項的認可。他們中的一些人,從DeepSeek LLM v1開始,就參與了團隊的工作,一直到現在,已經成為了團隊中的中堅力量。
DeepSeek的核心成員中,高華佐和曾旺丁是MLA架構的關鍵創新者。MLA(Multi-head Latent Attention)是DeepSeek-V2中的一項重要創新,它大幅減少了計算量和推理顯存,為DeepSeek-V2的成功奠定了堅實的基礎。而曾旺丁,則來自北京郵電大學,其導師是北郵人工智能與網絡搜索教研中心主任張洪剛。
除了MLA,DeepSeek-V2還涉及到了另一項關鍵成果——GRPO。GRPO是PPO的一種變體RL算法,它顯著減少了訓練資源的需求,受到了業內的廣泛關注。這一成果的背后,也有著年輕研究員的辛勤付出。邵智宏、朱琪豪和Peiyi Wang等核心作者,在DeepSeek實習期間就完成了這一工作。
邵智宏是清華大學交互式人工智能(CoAI)課題組博士生,師從黃民烈教授。他的研究領域包括自然語言處理和深度學習,對構建一個穩健且可擴展的AI系統有著濃厚的興趣。朱琪豪則是北京大學計算機學院軟件研究所的博士畢業生,他的研究方向是深度代碼學習,曾發表多篇CCF-A類論文。
DeepSeek的創始人梁文鋒,在團隊的建設上有著獨到的見解。他強調,團隊的核心技術崗位主要以應屆和畢業一兩年的人為主,看能力而不是看經驗。這一理念貫穿了整個團隊的招聘和人才培養過程,使得團隊能夠吸引并留住大量的年輕才俊。
除了團隊成員的年輕化,DeepSeek在國內AI公司中還有著另一個突出的特點:非常重視模型算法和硬件工程的配合。在DeepSeek-v3的論文中,有200位作者參與了這一工作,他們不僅負責AI算法和數據,還參與了硬件的優化和算力的提升。
這種軟硬件協同的設計,使得DeepSeek能夠以極低的算力實現高性能的大模型訓練。而這一切的背后,離不開團隊中那些既懂算法又懂硬件的年輕工程師們的辛勤付出。
DeepSeek的運作模式也讓人想起了另一家AI界的巨頭——OpenAI。同樣不看經驗、重用新人,同樣面對潛力方向時從頂層開始設計布局和資源推動。或許,在未來的某一天,DeepSeek會成為組織形態上最像OpenAI的中國AI公司。