近日,智元機(jī)器人在其官方渠道宣布了一項重大突破,正式推出了業(yè)界首個通用具身基座模型——智元啟元大模型(Genie Operator-1),這一創(chuàng)新成果標(biāo)志著智元在人工智能領(lǐng)域的又一里程碑。
智元啟元大模型的核心在于其獨創(chuàng)的Vision-Language-Latent-Action(ViLLA)架構(gòu),這一架構(gòu)的提出,為具身智能的發(fā)展開辟了新的路徑。ViLLA架構(gòu)由兩大核心組件構(gòu)成:多模態(tài)大模型VLM與混合專家系統(tǒng)MoE。
VLM組件通過深度挖掘海量互聯(lián)網(wǎng)圖文數(shù)據(jù),賦予了智元啟元大模型卓越的通用場景感知和語言理解能力。它能夠準(zhǔn)確識別并理解圖像中的信息,同時與文本數(shù)據(jù)進(jìn)行高效融合,實現(xiàn)了對復(fù)雜場景的全面理解。
而MoE系統(tǒng)則進(jìn)一步增強了智元啟元大模型的動作理解與執(zhí)行能力。其中,Latent Planner(隱式規(guī)劃器)通過分析大量跨本體和人類操作視頻數(shù)據(jù),掌握了通用的動作規(guī)劃邏輯。與此同時,Action Expert(動作專家)則依托百萬級真機(jī)數(shù)據(jù)訓(xùn)練,具備了精細(xì)且高效的動作執(zhí)行能力。
ViLLA架構(gòu)中的這三大組件相互協(xié)同,形成了一個高效且智能的系統(tǒng)。它不僅能夠從人類視頻中學(xué)習(xí)并快速泛化到小樣本場景,還顯著降低了具身智能的應(yīng)用門檻。這一創(chuàng)新成果已經(jīng)成功應(yīng)用于智元的多款機(jī)器人本體上,展現(xiàn)了強大的實際應(yīng)用潛力。