在具身智能研究領域,如何使機器人在任務指導和實時環境感知的基礎上規劃未來行動,一直是科研人員面臨的重大挑戰。這一難題主要受到“模態對齊”和“數據稀缺性”兩大因素的制約。近日,智元機器人團隊提出了一種名為EnerVerse的創新架構,該架構通過自回歸擴散模型,在生成未來具身空間的同時,也指導機器人執行復雜任務。
EnerVerse架構與現有的視頻生成模型應用方法存在顯著差異。它深入結合了具身任務的實際需求,創新性地引入了稀疏記憶機制(Sparse Memory)和自由錨定視角(Free Anchor View, FAV)。這一創新不僅顯著提升了4D生成能力,還在動作規劃性能上實現了重大突破。
據智元機器人團隊介紹,實驗結果顯示,EnerVerse不僅具備生成未來空間的能力,還在機器人動作規劃任務中達到了當前最優水平(SOTA)。這一成果標志著在具身智能領域取得了重要進展。目前,EnerVerse的項目主頁和論文《EnerVerse:設想機器人操作的具身未來空間》已經上線,模型及相關數據集也即將面向公眾開源。
EnerVerse的主要科研成員來自智元機器人研究院的具身算法團隊。論文的共同第一作者黃思淵,是上海交通大學與上海人工智能實驗室的聯合培養博士生,師從香港中文大學多媒體實驗室(CUHK-MMLab)的李鴻升教授。黃思淵博士期間的研究方向主要集中在基于多模態大模型的具身智能和高效智能體的研究,并在CoRL、MM、IROS、ECCV等國際頂級會議上以第一作者或共同第一作者身份發表了多篇論文。
另一位共同第一作者陳立梁,則是智元機器人的具身算法專家,主要負責具身空間智能和世界模型的研究。EnerVerse架構的成功研發,不僅展示了智元機器人團隊在具身智能領域的深厚積累,也為未來機器人技術的發展提供了新的思路和方向。