7月22日,字節跳動Seed官方公眾號宣布推出一款名為GR-3的全新Vision-Language-Action Model(VLA,視覺-語言-動作)模型。據稱,該模型擁有強大的泛化能力、對抽象概念的理解以及精細操作柔性物體的能力。
GR-3:多樣數據訓練 高效解讀指令
GR-3模型的核心優勢在于其出色的泛化能力和對抽象概念的理解。與傳統的VLA模型不同,GR-3通過少量的人類數據即可實現高效微調,從而快速且低成本地遷移至新任務,認識新物體。這一特性使得GR-3在面對未知環境和物體時,依然能夠保持高效穩定的操作性能。
具體而言,GR-3采用了Mixture-of-Transformers(MoT)的網絡結構,將“視覺-語言模塊”和“動作生成模塊”緊密結合,形成了一個擁有40億參數的端到端模型。這種設計使得GR-3能夠直接根據攝像頭捕捉的畫面和收到的語言指令,迅速計算出下一步的動作。例如,在聽到“收拾餐桌”的指令后,GR-3能夠自動完成“打包剩菜、收拾餐具、倒垃圾”等一系列連續動作。
GR-3的另一大亮點在于其三合一的數據訓練法。傳統的機器人模型往往依賴于大量的機器人軌跡數據進行訓練,而GR-3則突破了這一局限,通過結合遙操作機器人數據、人類VR軌跡數據以及公開可用的圖文數據,實現了對模型性能的顯著提升。
遙操作機器人數據為GR-3提供了基礎的操作能力,確保其在完成“撿杯子”、“掛衣服”等基礎任務時的穩定性和準確性。人類VR軌跡數據的引入,則使得GR-3能夠以極低的成本快速學習新任務。通過VR設備采集的人類軌跡數據,GR-3在效率上比傳統遙操作數據收集方法快了近一倍。此外,公開可用的圖文數據極大地提升了GR-3的泛化能力,使其能夠認識更多物體,理解更復雜的抽象概念。
ByteMini機器人:GR-3的“靈活軀體”
為了充分發揮GR-3模型的強大能力,字節跳動Seed團隊還設計了一款名為ByteMini的通用雙臂移動機器人。ByteMini機器人擁有22個全身自由度,以及獨特的手腕球形設計,使其能夠像人類一樣靈活操作。在狹小空間內,ByteMini能夠完成各種精細操作,如收納盒、抽屜內的物品整理等。
ByteMini機器人搭載了全身運動控制系統,動作既快速又穩定,同時避免了傳統機器人那種“硬邦邦”的碰撞感。在抓取紙杯等易碎物品時,ByteMini能夠自動調整力度,避免捏碎物品。此外,ByteMini還配備了多顆攝像頭,其中手腕攝像頭負責捕捉細節,頭部攝像頭則負責觀察全局,確保機器人能夠“眼觀六路”,準確執行各項任務。
在實際應用中,GR-3模型展現出了卓越的性能。在通用拾取放置任務中,GR-3面對訓練中未見過的物品和環境時,依然能夠保持高指令遵循率和成功率。例如,在從未見過的臥室書桌、超市柜臺等場景中,GR-3的性能幾乎無衰減,展現出了強大的環境適應和泛化能力。
在長程餐桌清理任務中,GR-3僅憑“收拾餐桌”這一總指令,就能自主完成全流程操作,平均完成度超過95%。同時,GR-3還能嚴格跟隨人類發出的分步指令,準確執行各項任務。在柔性衣物精細操作任務中,GR-3同樣表現出了出色的靈活性和魯棒性。無論是長袖還是短袖衣物,GR-3都能穩定地完成掛衣服任務。
持續探索,邁向通用機器人“大腦”
字節跳動Seed團隊計劃進一步擴大模型規模和訓練數據量,提升GR-3對未知物體的泛化能力。同時,團隊還將引入強化學習(RL)方法,突破現有模仿學習的局限,讓機器人在實際操作中不斷“試錯”,從成功和失敗中自主學習調整動作與策略(比如物體滑落時如何快速重新抓取等)。
GR-3模型的發布,無疑為機器人技術的發展注入了新的活力。字節跳動Seed團隊期望,通過持續的研究和探索,GR-3能夠成為邁向通用機器人“大腦”的重要一步。展望未來,他們希望機器人操作大模型能夠真正進入人們的日常生活,成為幫助人類處理各種事務的通用機器人助手。