在科技界的一次重大合作中,月之暗面Kimi與清華大學(xué)MADSys實驗室攜手,共同揭曉了他們醞釀已久的Mooncake推理系統(tǒng)設(shè)計方案。這一創(chuàng)新方案于2024年6月正式面世,其核心在于采用了KVCache為中心的PD分離技術(shù)和存換算架構(gòu),極大地推動了推理吞吐量的提升。
為了加快Mooncake技術(shù)的實際應(yīng)用步伐,近日,月之暗面Kimi與清華大學(xué)MADSys實驗室再度發(fā)力,聯(lián)合9#AISoft、阿里云、華為存儲、面壁智能以及趨境科技等業(yè)界知名企業(yè),共同推出了Mooncake開源項目。該項目旨在構(gòu)建一個以KVCache為核心的大模型推理架構(gòu),進一步推動技術(shù)的普及與發(fā)展。
就在近日,Mooncake技術(shù)框架已經(jīng)正式在開源社區(qū)上線,為全球的開發(fā)者提供了一個全新的技術(shù)平臺。以下是Mooncake技術(shù)框架的開源地址:
Mooncake開源項目不僅是對其學(xué)術(shù)論文的延伸,更是對以超大規(guī)模KVCache緩存池為核心的創(chuàng)新理念的實踐。通過存換算這一創(chuàng)新思路,Mooncake顯著降低了算力開銷,從而實現(xiàn)了推理吞吐量的顯著提升。這一突破性的進展,無疑為人工智能領(lǐng)域帶來了新的發(fā)展機遇。
在開源計劃的實施上,Mooncake采取了分階段推進的策略。首先,將高性能KVCache多級緩存Mooncake Store的實現(xiàn)逐步開源,同時確保對各種推理引擎和底層存儲/傳輸資源的兼容性。目前,傳輸引擎Transfer Engine部分已經(jīng)率先在GitHub上實現(xiàn)了全球開源。
Mooncake開源項目的長遠目標是,為大模型時代打造一種高性能、內(nèi)存語義存儲的標準接口,并提供一套可參考的實現(xiàn)方案。這將為未來的技術(shù)發(fā)展奠定堅實的基礎(chǔ),推動人工智能領(lǐng)域邁向新的高度。
通過Mooncake推理系統(tǒng)架構(gòu)圖,我們可以清晰地看到其設(shè)計的精妙之處。這一架構(gòu)不僅體現(xiàn)了技術(shù)的先進性,更展示了合作團隊在人工智能領(lǐng)域的深厚底蘊和創(chuàng)新能力。