2025年智源大會上,人形機器人不再是吉祥物,被“圍堵”的人從楊植麟變成了王興興。
這一年,AI進展迅猛,迭代周期甚至少于3個月,且不再局限于大語言模型,而是轉化為人形機器人訓練、落地的強輔助。
“人工智能正在加速從數字世界走向物理世界?!敝窃囱芯吭涸洪L王仲遠在接受包括21世紀經濟報道在內的記者采訪時直言:“人工智能應該為世界做一些實實在在的事情,幫助人類擺脫繁瑣的、重復的以及簡單的勞動。”
“大模型技術還遠沒有到發展的盡頭,過往所說的‘百模大戰’更多是大語言模型的競爭,而大語言模型受限于互聯網數據的使用,基礎模型性能雖然還在提升,但是提升速度不如以前。”在王仲遠看來,大語言模型性能提升瓶頸的解法主要包括三個方面,一是強化學習優化推理能力,二是合成高質量數據替代人類標注,三是激活海量未充分利用的多模態數據,多模態數據的規??蛇_文本的“百倍乃至萬倍”。
在智源研究院的判斷中,大模型的技術路線會從大語言模型往多模態尤其是原生多模態世界模型的方向發展。原生多模態世界模型本質上是為了讓人工智能感知和理解物理世界,進而推進和物理世界的交互。進入物理世界之后,在宏觀層面,大模型與硬件結合,通過具身智能的發展解決實際生產生活問題。
“所有這一切構成的世界模型,是實現物理AGI的重要發展路徑。”王仲遠表示,智源研究院的工作布局都是圍繞這一技術發展趨勢進行的。
在2025北京智源大會上,繼“悟道”系列大模型之后,智源研究院推出了“悟界”系列大模型,包括原生多模態世界模型Emu3、腦科學多模態通用基礎模型見微Brainμ、跨本體具身大小腦協作框架RoboOS 2.0與具身大腦RoboBrain 2.0以及全原子微觀生命模型OpenComplex2。
到底該如何定義“世界模型”內核,王仲遠以咖啡杯舉例:“現有模型能描述‘白色帶文字的杯子在桌上’,但無法判斷‘杯沿懸空可能墜落’——這需要時空預測能力?!彼麖娬{Emu3的核心突破正在于此:建立對物理因果關系的理解,而不僅是多模態信息拼接。
當被問及具身智能的技術路線之爭,王仲遠展現出務實的態度。
??關于人形是不是具身智能的最優解,王仲遠肯定了人形機器人的長期價值:“社會基礎設施為人類設計,雙足構型更易融入,且海量人類行為數據利于模型訓練?!?/p>
但短期內四足、輪式等形態將共存,“??人形機器人的成熟周期更慢??,今年剛學會跑,穩定性仍需突破?!彼f道。
??數據悖論如何解??? 面對“硬件能力不足限制數據采集,數據稀缺又制約模型進化”的循環困局,王仲遠認為,可以通過互聯網視頻數據訓練基礎能力,再以少量真實數據強化學習微調?!熬拖窈⒆涌匆曨l學會串藍莓,再動手實踐優化動作?!?/p>
??工廠場景為何優先??? “封閉環境可規避安全風險,且重復枯燥任務存在剛需?!彼e例物流分揀、激光刻印等場景,“這些人類不愿做的工作,正是具身智能首個突破口”。
對于業內熱炒的“大小腦融合”概念,王仲遠表示,智源不否認大小腦融合的可能趨勢,未來5-10年,大小腦融合的模型可能會成熟,但不是今天。
他直言,當前具身智能數據量不足以支持大小腦融合的模型訓練。
目前,具身智能的VLA模型泛化性不夠,也許能把咖啡端得很好,但并不能很好地解決其他泛化任務。王仲遠認為,具身智能或者機器人2.0時代,最重要的是能突破專有任務,達到一定的泛化性,再到未來具備更通用、跨領域的泛化性,這需要一定的發展過程。
他判斷,2006-2022年的深度學習或者AI 1.0時代,人工智能的發展路徑是首先在某項能力上超越人類,然后進入到生產生活應用,積累了越來越多的數據,再隨著算力、算法、數據達到一定程度,推動大模型的產生,隨后,發現其具備了通用人工智能和跨領域的可能性。“VLA以及真正意義上端到端的具身大模型,需要時間沉淀?!?/p>
MCP、Agent成為人工智能領域最新話題,這是否意味著AI有了實質性突破,以及AGI到底走到了哪一步?
王仲遠認為,大模型發展到一定程度,達到可用狀態之后,Agent是產業界可以開始發力的領域。
“基礎大模型達到可用狀態時,像水、電、操作系統一樣,意味著可以基于這個操作系統開發很多APP?,F在的Agent相當于移動互聯網的APP,目前手機上很多APP也是工作流,但是越來越強時就能擴展能力。”他指出,現在大模型的思考能力和智能化程度已經實現使得部分Agent做得很好,這是產業界特別擅長和優勢所在,這是產業發展的趨勢。
王仲遠表示,此前“百模大戰”討論的是基礎大模型的競爭,但是基礎大模型一定會收斂,現在可以看到行業內還剩下少數幾個玩家在堅持基礎大模型,這在某種程度上不會造成資源浪費。
將來有沒有可能出現新的“千模大戰”或者“萬模大戰”?王仲遠并不排除這種可能性。他說,因為基礎大模型進入產業,需要產業相關的數據衍生出垂類模型,但垂類模型并不是指垂類領域訓練,而是基于好的基座模型+垂類數據,訓練出好的產業模型。
“具身大模型的發展仍處于非常早期的階段,類似于GPT-3前的探索期?!蓖踔龠h分析指出,當前具身智能也面臨與早期AI大模型類似的挑戰。
比如,技術路線尚未形成共識:學界與產業界對核心技術路徑存在分歧,仿真數據、強化學習、大小腦融合架構等方向仍在探索中,尚未形成統一方法論;又如產業落地尚需突破:盡管智源推出具身智能跨本體大小腦協作框架等成果,但離大規模商用仍有較長距離,需要解決“感知-決策-行動”協同、多模態數據融合等基礎問題。
或許,當機器人能真正理解“咖啡杯放桌沿會摔碎”時,才是物理AGI的里程碑。(21世紀經濟報道 記者 孔海麗)