7月10日,特斯拉創(chuàng)始人兼首席執(zhí)行官馬斯克旗下的人工智能公司xAI正式發(fā)布了Grok 4,迎來了作為xAI在2023年推出首代大模型以來的第四次重要更新。
得益于計算能力的增強、強化學習的訓練,Grok 4 的推理能力相較于前代提升了 10 倍,因此也被稱為“最強AI模型”。馬斯克稱,Grok 4 最強大的地方是其推理能力,它已經(jīng)實現(xiàn)了超越人類的推理水平,不過,Grok 4也引發(fā)了業(yè)界對其安全、倫理沖突等方面的擔憂。
或自主發(fā)現(xiàn)科學理論
在發(fā)布會直播中,xAI發(fā)布了兩款模型,分別是Grok 4(單智能體版本)和Grok 4 Heavy(多智能體版本),其中后者支持4個智能體并行思考,在推理過程中橫向比對、縱向協(xié)同,調用更大規(guī)模的計算資源以完成更復雜、更精密的任務。
“在所有學科上,Grok 4比博士還強——沒有例外?!瘪R斯克在直播中表示,雖然Grok 4目前還沒有發(fā)現(xiàn)新科學或新的物理定律,但這只是一個時間問題,他相信Grok 4可以在今年內實現(xiàn)科學新發(fā)現(xiàn)。
馬斯克表示,Grok 4 每次都能在 SAT 考試(美國高考)中獲得滿分,無需事先查看題目,它也可以做到 GRE 任何學科接近滿分,超過了全世界所有研究生的水平。Grok 4 最強大的地方是其推理能力,它已經(jīng)實現(xiàn)了超越人類的推理水平。
直播中,xAI的研究人員將“人類的最后考試”擴展到了2500個問題,涵蓋了數(shù)學、自然科學、工程以及所有人文學科,問題廣泛且都是博士甚至高級研究水平,極具挑戰(zhàn)性,但Grok 4在這些問題上都可以得到很好的分數(shù)。
據(jù)介紹,從 Grok 2 到 Grok 4,xAI采用的技術范式不同,在訓練計算量、推理能力較前一代提升了10倍。今年2月,xAI團隊發(fā)布Grok 3,Grok 3的誕生被普遍認為是AI計算能力的全新時代。彼時,為了達到理想的訓練效果,xAI公司動用了20萬塊英偉達GPU,構建了全球最大的超算集群。
發(fā)布會上,Grok 4的訓練是在一個擁有超過20萬張H100 GPU的超級計算機集群上完成的,是Grok 3時期的兩倍。更重要的是,xAI改變了訓練策略,將更多的算力投入到“推理能力”的專項訓練上。
相比于Grok 2,Grok 4的訓練量提升了整整100倍,在GPQA、AIME25、LCB(Jan-May)、HMMT25等多項測評中,Grok 4都超越了OpenAI o3、Gemini 2.5 Pro、Claude 4 Opus等模型。
須警惕潛在的負面影響
2024年6月,xAI宣布在美國田納西州孟菲斯建造超級計算機以訓練其人工智能大模型Grok。該系統(tǒng)初期配備20萬個英偉達GPU,馬斯克計劃將GPU規(guī)模最終擴大到100萬個,而xAI計劃今年8月推出代碼模型,9月上線多模態(tài)智能代理,10月發(fā)布視頻生成模型。
Grok 4的發(fā)布在全球科技界引起了巨大反響,它不僅標志著AI性能的新飛躍,也引發(fā)了關于追求極致智能的AI是人類文明里程碑還是未知風險源的討論。
此前,Grok 3曾因傳播不當言論而受到批評,這使得Grok 4在發(fā)布之初就被貼上了“高性能之下的高風險”標簽。盡管馬斯克強調Grok 4的目標是“成為盡可能追求真相的AI”,甚至設想其與類人機器人結合以發(fā)現(xiàn)新物理定律,但缺乏結構性的安全機制和透明的訓練方式,依然引發(fā)了國際專家的擔憂。
Google旗下人工智能公司DeepMind研究副總裁Oriol Vinyals指出,過度糾正錯誤可能使模型失去檢測和修復新錯誤的能力,這警示了在追求“真相”過程中平衡開放性和安全性的復雜問題。
專家表示,AI正以指數(shù)級的速度重塑社會結構、經(jīng)濟模式乃至人類的認知邊界。在享受AI帶來的效率提升和知識拓展的同時,我們必須警惕其潛在的負面影響,并構建完善的倫理框架和監(jiān)管體系。只有技術創(chuàng)新與社會責任并駕齊驅,AI才能真正推動人類文明的進步。