AI與機器人雙向奔赴：大模型“解鎖”機器人新技能機器人“反哺”AI新突破

發布時間：2026-07-04 00:35 來源：快訊作者：沈瑾瑜

對于許多受《星球大戰》影響長大的人來說，現實世界中缺乏像C-3PO這樣具備常識、能在家庭和工作場所提供幫助的人形機器人，一直令人感到遺憾。如今，隨著人工智能（AI）技術的迅猛發展，這一科幻夢想或許正逐步走向現實。斯坦福大學機器學習和機器人學研究員Alexander Khazatsky表示，我們這代人或許將成為見證科幻場景成真的最后一代。

從OpenAI到Google DeepMind，幾乎所有掌握AI技術的大型科技公司都在探索將多功能學習算法（即基礎模型）應用于機器人領域。這些算法旨在賦予機器人常識性知識，使其能夠應對各種任務。英偉達機器人技術營銷經理Gerard Andrews認為，機器人技術正站在變革的臨界點上，未來有望實現重大突破。

與此同時，機器人技術也在反哺AI的發展。許多研究人員認為，通過在AI訓練中引入具身體驗，可以更接近實現“通用人工智能（AGI）”的目標——即讓AI在任何任務中都能展現出類似人類的認知能力。meta人工智能研究員Akshara Rai指出，真正的智能必須包含物理智能，這是AI發展的關鍵一步。

盡管研究人員對AI與機器人結合的前景充滿期待，但他們也提醒，一些令人印象深刻的演示往往來自急于吸引眼球的公司，從演示到實際應用仍面臨諸多挑戰。麻省理工學院機器人專家Rodney Brooks表示，從實驗室到市場，機器人技術還有很長的路要走。

當前，機器人技術面臨的主要障礙包括數據收集、硬件可靠性以及安全性問題。新加坡國立大學人機互動專家Harold Soh認為，雖然用于機器人的基礎模型值得探索，但其能否引發機器人革命仍存疑。

機器人系統的應用范圍廣泛，從制造業的機械臂到救援任務的自動駕駛汽車和無人機，AI技術已得到廣泛應用。然而，大多數機器人仍被編程用于執行特定任務，或在特定環境中工作，依賴一定程度的人工監督。即使是波士頓動力制造的機器人Atlas，也需通過仔細映射環境并從內置模板庫中選擇動作來完成任務。

對于AI研究人員而言，他們的目標是創造出更自主、適應性更強的機器人。這些機器人可能從能夠“取放”工廠產品的機械臂開始，最終發展成能夠陪伴和支持老年人的人形機器人。人類的形態雖然復雜，但完全適合人類構建的世界，人形機器人應能像人類一樣與世界互動。

然而，控制機器人，尤其是人形機器人，難度極大。看似簡單的任務，如開門，實際上涉及復雜的機械裝置理解、力度控制以及平衡保持。現實世界的變化無常，進一步增加了機器人控制的難度。

為解決這一問題，研究人員正探索使用與圖像生成器和聊天機器人相同的基礎模型來控制機器人。這些模型通過大量通用數據學習，建立元素之間的關聯，并在被要求輸出時利用這些關聯生成適當的動作或圖像。機器人基礎模型也通過互聯網文本和圖像進行訓練，了解物體的性質和背景信息，同時從機器人操作實例中學習。

Google DeepMind開發的機器人基礎模型Robotic Transformer 2（RT-2）能夠操作移動機械臂，并根據指令執行超出其訓練范圍的操作。例如，RT-2成功將飲料罐移到Taylor Swift的照片上，盡管Swift的照片并未出現在其訓練數據中。這表明，從互聯網搜索中收集的知識可以被轉移到機器人的行動中，減少了對物理數據的需求。

然而，要完全理解動作的基本原理及其后果，機器人仍需從大量物理數據中學習。數據匱乏是當前機器人技術面臨的主要問題之一。盡管聊天機器人可以從互聯網獲取數十億個單詞的訓練數據，但機器人相關活動的大型數據集卻相對缺乏。

為解決數據匱乏問題，研究人員采取了多種策略。Khazatsky和他的同事創建了DROID2開源數據集，收集了一種機械臂約350小時的視頻數據，涵蓋多種環境。這種多樣性有助于機器人完成以前從未遇到過的任務。由數十個學術實驗室組成的合作小組也在收集機器人數據，包括從單臂到四足動物等各種形態的數據。他們認為，學習一個機器人的物理世界應有助于AI操作另一個機器人身體。

Covariant公司也在努力擴大機器人數據的規模。該公司自2018年開始收集全球倉庫中30種不同機械臂的數據，這些機械臂均使用Covariant軟件運行。Covariant的機器人基礎模型RFM-1不僅收集視頻數據，還包括傳感器讀數，如舉起的重量或施加的力。這種數據應有助于機器人執行更復雜的任務，如操縱柔軟物體。

另一種獲取大型動作數據庫的方法是關注人形機器人的形態，讓AI通過觀看人類視頻來學習。互聯網上有數十億人類的視頻，為AI提供了豐富的學習資源。然而，模仿人類在提高機器人技能方面潛力巨大，但實現起來卻很難。例如，機器人視頻通常帶有上下文和指令數據，而人類視頻則沒有。

研究人員還探索通過模擬來獲取無限物理數據的方法。許多機器人學家正在構建3D虛擬現實環境，其物理原理與真實世界類似，然后將其連接到機器人大腦進行訓練。模擬器可以產生大量數據，讓人類和機器人在罕見或危險的情況下無風險地進行虛擬互動。然而，開發一個好的模擬器是一項艱巨的任務，因為模擬器的物理特性并非完美，制作多樣化的模擬環境幾乎與收集多樣化的數據一樣困難。

為擴大機器人數據的規模，meta和英偉達都在仿真方面做了大量工作，并分別建立了復雜的仿真世界——Habitat和Isaac Lab。在這些模擬世界中，機器人在幾個小時內就可以獲得相當于多年的經驗，并在試驗中成功地將學到的知識應用于現實世界中從未遇到過的情況。

盡管研究人員對基礎模型在機器人領域的應用充滿樂觀，但許多實際制造機器人的人提醒道，硬件同樣是一個挑戰。機器人很復雜，且經常損壞。硬件雖然在不斷進步，但部署這些類型的機器人仍然困難重重。機器人基礎模型在使用視覺數據時能走多遠也是一個問題。機器人可能需要大量其他類型的感官數據，如觸覺或本體感覺，但這些數據集目前還不存在。

將基礎模型應用于現實世界還面臨安全性挑戰。大型語言模型已被證明會產生錯誤和有偏見的信息，甚至可能被誘騙去做程序設定它們不能做的事情。讓人工智能系統擁有身體，可以將這些錯誤和威脅帶到物理世界。因此，在機器人領域也需要人工智能安全領域正在進行的寶貴工作，以確保機器人的安全性和可靠性。

更多>同類內容