在機器人技術的前沿探索中,一項關于透明物體抓取的重大突破近日由地瓜機器人攜手中國科學院自動化研究所多模態人工智能系統全國重點實驗室共同宣布。他們的研究成果——MODEST單目透明物體抓取算法,成功入選即將于2025年舉行的IEEE機器人與自動化國際會議(ICRA 2025)論文名錄,標志著該技術在國際舞臺上的認可。
透明物體,如水杯、試管乃至窗戶,雖廣泛存在于我們的日常生活中,但其獨特的折射與反射特性卻給機器人的視覺感知帶來了巨大挑戰。在常規的RGB圖像中,透明物體往往因缺乏鮮明的紋理而難以與背景區分,同時,現有的商用深度相機也難以精確捕捉這些物體的深度信息,導致機器人在處理這類物體時捉襟見肘。
為了攻克這一難題,地瓜機器人與中科院自動化所的研究團隊聯合推出了MODEST框架。這一創新性的多任務框架專注于透明物體的單目深度估計與語義分割,通過巧妙的語義和幾何融合模塊,結合特征迭代更新策略,顯著提升了深度估計與語義分割的準確性,特別是在抓取成功率和系統泛化性上實現了質的飛躍。
MODEST算法框架作為通用抓取模型的前置增強模塊,其即插即用的特性無需依賴額外的傳感器,僅憑單張RGB圖像即可實現對透明物體的精準抓取。這一特性使得MODEST在智能工廠、實驗室自動化以及智慧家居等多個領域具有廣泛的應用前景,不僅降低了設備成本,還顯著提升了機器人對透明物體的操作能力。
MODEST的核心在于其針對透明物體的深度估計能力。通過設計的語義和幾何結合的多任務框架,MODEST能夠準確獲取透明物體的深度信息,并結合基于點云的抓取網絡實現抓取操作。這一過程相當于在通用抓取網絡前增加了一個專門針對透明物體的增強模塊,從而大幅提升了抓取的精準度和成功率。
MODEST模型的整體架構由編碼、重組、語義幾何融合和迭代解碼四個模塊組成。輸入的單目RGB圖像首先經過基于ViT的編碼模塊處理,隨后被重組為多尺度特征,分別對應分割和深度兩個分支。在融合模塊中,這兩組特征被混合并增強,通過多次迭代逐步更新特征,最終獲得準確的分割結果和深度預測。
為了驗證MODEST算法的有效性,地瓜機器人將其遷移至真實機器人平臺進行了透明物體抓取實驗。實驗平臺由UR機械臂和深度相機組成,在MODEST算法的精準感知基礎上,采用GraspNet進行抓取位姿的生成。實驗結果顯示,MODEST算法在真實平臺上表現出了良好的魯棒性和泛化性,能夠在各種透明物體上實現穩定且精準的抓取。