自動駕駛領域的佼佼者Waymo近日透露,其正在研發一種全新的訓練模型,該模型基于谷歌的多模態大語言模型Gemini。這一動態標志著Waymo在自動駕駛技術上的又一次重大突破,旨在為其機器人出租車提供更強大的智能決策能力。
Waymo發布的研究論文中詳細介紹了這一名為“端到端多模態自動駕駛模型”(EMMA)的新技術。與傳統的自動駕駛系統相比,EMMA模型能夠更有效地處理傳感器數據,并生成車輛未來的行駛軌跡,從而協助無人駕駛車輛做出更為精準的決策。
值得注意的是,這是自動駕駛領域首次嘗試將多模態大語言模型應用于實際業務中。此舉不僅展示了Waymo在技術創新上的領先地位,也預示著多模態大語言模型在自動駕駛領域的廣闊應用前景。
傳統的自動駕駛系統往往采用模塊化的設計方式,這種方式雖然在過去取得了一定的成效,但在面對復雜多變的環境時,其可擴展性和適應性均顯得捉襟見肘。而像Gemini這樣的多模態大語言模型則具有更強的通用性和推理能力,能夠有效解決這些問題。
據Waymo介紹,EMMA模型在復雜環境下的表現尤為出色。例如,在遇到動物穿越道路或道路施工時,該模型能夠幫助無人駕駛汽車迅速找到最佳的行駛路徑。
與此同時,特斯拉等其他自動駕駛領域的巨頭也在積極探索端到端模型的應用。然而,Waymo憑借其強大的技術實力和豐富的研發經驗,在這一領域顯然已經走在了前列。
當然,EMMA模型也并非完美無缺。Waymo坦言,在將該模型正式投入應用之前,仍需要進行大量的研究工作。例如,如何降低模型處理3D傳感器輸入時的計算開銷,以及如何提高模型處理圖像幀的效率等,都是未來需要重點攻克的難題。
多模態大語言模型在自動駕駛領域的應用還面臨著另一大挑戰,即如何確保模型的輸出結果的準確性。由于無人駕駛汽車的容錯率極低,因此任何微小的誤差都可能導致嚴重的后果。這就要求在將這些模型大規模應用于實際場景之前,必須進行更為深入和細致的研究。