近期,北京大學肖睿團隊分享了兩份關于DeepSeek的“內部秘籍”,引起了廣泛關注。此前,清華大學發布的五部DeepSeek攻略已經激起了不少人對這一領域的興趣。對于初學者來說,DeepSeek仍然是一個神秘而強大的工具。
首先,我們需要從基礎開始理解。DeepSeek作為大語言模型的一員,其運作機制與我們常聽到的GPT有著異曲同工之妙。GPT,即生成式預訓練變換器(Generative Pre-trained Transformer),它的工作流程頗為直觀:接收提示詞,將輸入內容拆分為一個個token,通過Transformer架構處理這些token,基于上下文預測下一個token,并根據概率分數選擇最合適的token,如此自回歸地重復,直至形成完整的句子。
這種機制賦予了GPT及其同類模型強大的語言理解和生成能力,以及一定程度的世界知識和推理能力。然而,它們也并非無所不能,存在著AI幻覺、知識庫有限及上下文窗口限制等劣勢。
肖睿團隊的秘籍之一《DeepSeek與AIGC應用》正是為非專業背景的讀者揭開DeepSeek的神秘面紗。它詳細解釋了DeepSeek是什么,以及它能在哪些場景中發揮作用。在使用這些AI大模型時,我們需時刻注意其能力邊界。例如,GPT-3.5和GPT-4的上下文長度有限,處理長文本時需分段對話、定期總結,使用關鍵詞提醒等技巧。
在文本分析領域,大模型擅長統計、摘要生成等任務,但在面對知識更新、語境歧義等復雜情況時,其表現可能不盡如人意。面對新詞匯、語境誤判等問題,大模型也會無奈地表示:“這我都沒訓練過啊!”
了解這些基礎后,我們便能更深入地理解AIGC工具的應用場景。目前,面向普通用戶的AIGC工具主要包括聊天對話機器人、圖像生成工具、音頻工具、視頻生成工具和搜索工具等。DeepSeek-R1以其強大的推理能力脫穎而出,但它不具備多模態能力,無法處理圖像、音頻等信息。相比之下,豆包等多模態能力更強的工具更適合日常休閑對話。
肖睿團隊的另一份秘籍《DeepSeek提示詞工程和落地場景》則專注于DeepSeek R1的使用技巧。作為一款CoT思維鏈模型,我們需要改變傳統的提示詞習慣,更直接地與AI溝通我們的需求。例如,可以告訴AI:“我要(做)XX,要給XX用,希望達到XX效果,但擔心XX問題。”還可以通過“反向PUA”的方式,引導AI通過自身的思考邏輯輸出更好的結果。
這份秘籍還提供了市場營銷、公文寫作、編程開發、數據分析、會議紀要、學術研究等多個領域的用法示例,為讀者提供了豐富的實踐指導。