對話曙光存儲何振：中國AI的最大瓶頸，可能不全在GPU身上

經(jīng)濟觀察報關(guān)注 2025-08-05 16:54

經(jīng)濟觀察報記者鄭晨燁

近日，中科曙光存儲科技有限公司（下稱“曙光存儲”）聯(lián)合中國移動研究院，正式發(fā)布了面向“東數(shù)西算”的存算一體化調(diào)度平臺，其目標是解決“東數(shù)西算”工程中的一個具體難題——存放在西部的數(shù)據(jù)，東部的算力用不上、用不好，數(shù)據(jù)調(diào)度效率低下。

這一合作的背后，是中國AI投資領域一個特殊的現(xiàn)狀：曙光存儲副總裁張新鳳在與記者的交流中介紹，國內(nèi)市場在算力與存力上的投資配比約為40:1，而國外市場這一數(shù)字通常在10:1之內(nèi)。

巨大的投資傾斜于以GPU為代表的算力，但效率的瓶頸卻出現(xiàn)在了另一端。

“存儲無論在哪個層面都是瓶頸，”曙光存儲總裁何振對經(jīng)濟觀察報記者表示，“數(shù)據(jù)跟不上，我們前面跑得再快都沒有用。”在何振看來，這種因數(shù)據(jù)流轉(zhuǎn)不暢導致的“算力空等”，代價是昂貴的。其團隊測算，在存力上每投入1元，或可為算力節(jié)省10元成本。

解決這一效率問題，需要深厚的技術(shù)能力，而該領域曾長期由國外廠商主導，國內(nèi)廠商具備提供解決方案的能力，是近些年才發(fā)生的變化。中科曙光（603019.SH）旗下的曙光存儲，是其中的一家國內(nèi)廠商，經(jīng)過21年的研發(fā)投入，按照其總裁何振的說法，該公司已經(jīng)走完了一個從研發(fā)是“負擔”到研發(fā)是“護城河”的階段。當市場環(huán)境變化，原先的國外廠商逐步退出，這使得曙光存儲有機會憑借其技術(shù)積累直接面向市場，其集中式存儲產(chǎn)品，近年在SPC-1國際基準評測（一項國際公認的存儲性能權(quán)威測試）中，性能排名全球第一。

這種從追趕到提供解決方案的角色變化，也反映了中國科技產(chǎn)業(yè)格局的變遷。8月1日，圍繞中國存儲及AI產(chǎn)業(yè)的現(xiàn)狀、瓶頸與未來，經(jīng)濟觀察報與曙光存儲總裁何振展開了對話。

|對話|

AI基建的三大難題

經(jīng)濟觀察報：當前行業(yè)在AI算力上投入巨大，但你似乎認為，真正的瓶頸并不在算力本身，而是在更基礎的數(shù)據(jù)層面，具體是指什么？

何振：我們現(xiàn)在能看到，無論是國外的英偉達還是國內(nèi)的一眾AI芯片廠商，大家都在追求每秒鐘提供多少算力。其實他們假定數(shù)據(jù)可以持續(xù)地喂給GPU卡，這個實際上是一個很有挑戰(zhàn)的事兒。

全國一體化大數(shù)據(jù)中心的建設這個大課題，最近幾年我們一直在和運營商合作。其中我們主要發(fā)揮的作用，是通過他們把這些數(shù)據(jù)中心連通以后，構(gòu)建一個全網(wǎng)數(shù)據(jù)統(tǒng)一管理、跨域流動的大的基礎設施。曙光存儲截至今年，已經(jīng)做了20多年了，針對以往的數(shù)據(jù)中心采用傳統(tǒng)的分布式文件系統(tǒng)，要想實現(xiàn)存得下、流得動、用得好，還是要解決以下幾個問題。

第一，數(shù)據(jù)看不全的問題。現(xiàn)在的數(shù)據(jù)中心都是存在一個壁壘里面，相互之間數(shù)據(jù)是不通的，同時每一個數(shù)據(jù)中心里面采用的不同廠家的系統(tǒng)又不兼容，導致數(shù)據(jù)很難統(tǒng)一管理，形成統(tǒng)一的目錄。所以對企業(yè)來說，這是看不全的。

第二，理不順。我們一直說現(xiàn)在的數(shù)據(jù)，不管是從上百TB（計算機存儲容量單位，1TB等于1024GB）或者上千TB，特別是隨著AI技術(shù)的發(fā)展，對這些數(shù)據(jù)的價值如何深度和快速的定位，以及數(shù)據(jù)跨域之間如何可以快速地流通，這是我們目前面臨最重要的問題。

第三個問題，是我們一直提到的數(shù)據(jù)用不好。在“東數(shù)西存”的戰(zhàn)略下，把一些冷的數(shù)據(jù)存到西部，熱的數(shù)據(jù)跟算力中心離得近一些。當然這個過程是在傳統(tǒng)數(shù)據(jù)中心里面一直沒有解決的問題，數(shù)據(jù)存那以后，我存到西部，東部的一些業(yè)務系統(tǒng)調(diào)用這個數(shù)據(jù)的話，延遲比較長，比較慢，所以這也是我們一直說用得不好的主要原因。就是使用的感受不是很好。

經(jīng)濟觀察報：你認為存儲是瓶頸，但這似乎與行業(yè)當下“大力出奇跡”的算力競賽相悖，為什么會出現(xiàn)這種情況？

何振：圍繞著人工智能市場的發(fā)展，這兩年提出來的是性能，我們要追求更高的天花板。因為傳統(tǒng)的系統(tǒng)里面，我們可以看到，整個IT系統(tǒng)建設，底層是存儲，中層是網(wǎng)絡，再上面是計算，再往外就是我們的各種移動終端和最終用戶。這三層建設里面，存儲無論在哪個層面都是瓶頸。

AI芯片廠商都在追求每秒鐘提供多少算力，他們假定數(shù)據(jù)可以持續(xù)地喂給GPU卡，這個實際上是一個很有挑戰(zhàn)的事兒。一方面，網(wǎng)絡本身要非常強大，現(xiàn)在，200G、400G乃至800G帶寬的高速網(wǎng)卡，已經(jīng)應用到服務器上；另一方面，這些原始數(shù)據(jù)所在的存儲平臺，是不是能支撐？

這就是我們說的IOPS（每秒讀寫操作次數(shù)），帶寬，單流的帶寬，這個層面的挑戰(zhàn)越來越大。因為前面的算力，無論是英偉達為主的，還是國內(nèi)的一眾廠商，大家都在追求這件事兒，存儲要跟得上才能不拖后腿。永遠會有一個存儲瓶頸，達到天花板的時候，前面跑得再快都沒有用，因為數(shù)據(jù)跟不上。

經(jīng)濟觀察報：這些存在于底層的數(shù)據(jù)難題，在具體的商業(yè)場景中如何體現(xiàn)，AI的出現(xiàn)又帶來了哪些新變化？

何振：這些問題是一直存在的。比如自動駕駛，路測車每天每輛車是幾TB到十幾TB的數(shù)據(jù)，這些采集的數(shù)據(jù)，首先會集中到一個中心處理，然后進行脫敏、標注，再到數(shù)據(jù)訓練，是這么一個流程。以往我們的用戶需要買不同廠家、不同類型的存儲，每個數(shù)據(jù)處理完了以后，還要把數(shù)據(jù)挪到下一個存儲里面去，這些過程對于用戶的投資，還有數(shù)據(jù)流動的效率，都是非常大的挑戰(zhàn)。

到了AI時代，這個問題就更嚴重了。比如大數(shù)據(jù)的訓練，對IOPS的性能要求提高了數(shù)十倍到百倍，這是大家可以感受到的變化。我們以前做大規(guī)模的存儲系統(tǒng)，可能說幾百Gb的帶寬就很高了，現(xiàn)在基本是十幾個TB。

經(jīng)濟觀察報：與中國移動合作落地國家級戰(zhàn)略，這個項目的契機是什么？

何振：我們做的這個平臺是中國移動主動提出來的。這個方向我們之前，應該說是至少十年之前，我們都考慮過統(tǒng)一存儲調(diào)度平臺的事兒，因為存儲要解決的問題就那幾個方面：容量、性能、數(shù)據(jù)的流動。如果我們要解決數(shù)據(jù)流動的問題，做一個類似全球統(tǒng)一的空間，這是必然要走的路線。

但是我們也關(guān)注投入產(chǎn)出比，如果市場上沒有看到有實際的需求，能把我們的投入轉(zhuǎn)化為收益，我們可能也就是做一些技術(shù)的預判，但是不會那么快投入。我們投入這個，確實是中國移動看到有具體的落地場景和需求了。

他們當時給我們提出這個事兒的背景有兩個。第一個，移動自己有業(yè)務需要。他們從2020年開始就成為我們的客戶，現(xiàn)在已經(jīng)合作6年了。我們在中國移動上線了上千套的存儲，分布在多個子公司和資源池。現(xiàn)在這么多的數(shù)據(jù)，到底有多少數(shù)據(jù)資產(chǎn)他們是不清楚的，因為都是數(shù)據(jù)存儲的孤島。

第二個問題，當時我們國家在提“東數(shù)西算”，希望把西部的能源資源優(yōu)勢充分利用起來。而像移動這樣的運營商，他們的身份，是特別適合幫國家落地這個戰(zhàn)略的。

他們?yōu)槭裁凑业绞锕獯鎯Γ恳驗檫@個事情是比較復雜的，我們要跨異構(gòu)、跨地域?qū)崿F(xiàn)數(shù)據(jù)流動，這里面有很多問題需要解決。這是困擾很多廠商的問題，要解決這個問題，必須找一個有全棧技術(shù)自研沉淀的廠商才能做。

多年自研沉淀為護城河

經(jīng)濟觀察報：在一個更看重“短平快”的商業(yè)環(huán)境中，曙光存儲為什么會選擇全棧自研路徑？

何振：存儲和其他產(chǎn)品不一樣，是有一定技術(shù)門檻的。曙光存儲成立到今年是整整21年，我們現(xiàn)在整個團隊的規(guī)模大概是1千多人，在國內(nèi)存儲領域我們是排到第一或者第二的規(guī)模。我們一千多人里面，90%以上都是研發(fā)人員。

人工智能的市場，本身就是從高性能計算領域演化出來的，我們長期的技術(shù)積累，最終等來了兩個變化。第一是（我們自身）厚積薄發(fā)到一定程度，優(yōu)勢就凸顯了，形成了護城河；第二是中美科技領域的斗爭越來越激烈，原來代表高性能的EMC（易安信，美國信息存儲資訊公司）等等，已經(jīng)全面地退出了中國的市場，這個時候我們的優(yōu)勢就凸顯出來了，因為代碼是自己寫的，性能又不比他們差，所以我們的機會也就來了。

特別是像國內(nèi)部分知名的頭部廠商，他們原來都是基于國外的內(nèi)核做了優(yōu)化和調(diào)整，但是在國產(chǎn)化的浪潮下，或者是國內(nèi)對于存儲的安全性和數(shù)據(jù)安全越來越重視的情況下，他們的優(yōu)勢已經(jīng)沒有了，反而我們的自研變成了護城河，他們開始找我們合作，要我們的產(chǎn)品。

不管是我們的分布式產(chǎn)品，還是集中式產(chǎn)品，現(xiàn)在都已經(jīng)領先于國外的任何一款產(chǎn)品了。特別是以集中式存儲來說，我們的產(chǎn)品在今年的打榜中，以3千萬的IOPS，0.202毫秒的延遲，登頂世界第一，打破了國外存儲在性能上對我們一直碾壓的勢頭。

我們現(xiàn)在的產(chǎn)品，性能上去了，但是成本也要比國外的便宜很多。為什么我們現(xiàn)在一直敢說曙光存儲一定要成為中國的EMC？因為我們這么多年自研的沉淀，變成了護城河。

“存算協(xié)同”的技術(shù)進步

經(jīng)濟觀察報：過去都說AI是“億元投入”的游戲，現(xiàn)在這個門檻降低了嗎？新的瓶頸又出現(xiàn)在哪里？

何振：2024年之前，我們做大模型的時候，做的都是大模型的訓練，如果要建一個大模型訓練平臺，幾億元都有點少，基本是十幾億元，甚至幾十億元的投入。在這個時候確實是不太有企業(yè)或者客戶具備這個能力來投入。

但是2024年DeepSeek出來以后，極大地降低了進入AI的門檻，從訓練轉(zhuǎn)到推理邏輯，這個對整體的算力和存力，要求都沒那么高了。目前來說，到大數(shù)據(jù)推理應用的階段，其實是國內(nèi)自己有了更多的機會，也降低了大眾接觸AI的門檻。

但到了推理階段，所面向的用戶群體五花八門，隨之而來的新瓶頸，就是隱私計算和可信計算的問題——這也是國家層面的明確要求。

實際上，數(shù)據(jù)安全是我們從一開始就考慮到的核心問題。在曙光存儲的體系中，我們能做到數(shù)據(jù)的隔離、加密和校驗。從架構(gòu)上看，無論是底層的國產(chǎn)化芯片、中間的通訊鏈路，還是前端的網(wǎng)絡接口，我們都實現(xiàn)了全鏈路的安全加密，能夠隨時對接國家的相關(guān)政策與安全標準。

未來隨著人工智能在各行各業(yè)的進一步發(fā)展，信息安全將是所有用戶都更加關(guān)注的問題。

經(jīng)濟觀察報：要實現(xiàn)AI普惠，除了降低入口門檻，更關(guān)鍵的是要讓AI用得起，從存儲技術(shù)角度看，降低AI運行成本的關(guān)鍵是什么？

何振：對于我們做存儲的廠商來說，最核心的一點，是提升GPU資源的利用率。我們不能讓GPU等數(shù)據(jù)，要把數(shù)據(jù)以最短的路徑運到離GPU最近、最快的介質(zhì)上。

我們有一個測算，在存力上每投入一塊錢，算力可以節(jié)約10塊錢。這背后有一套完整的計算鏈路和數(shù)據(jù)可以支撐。

具體來說，我們針對這個做了很多事情。比如我們做了GDS（一項旨在優(yōu)化GPU與存儲設備之間數(shù)據(jù)傳輸效率的技術(shù)），從存儲到GPU的時候，不需要CPU和內(nèi)存的參與，可以通過一個專門通道過去。目前我們支持國外的（芯片），也支持國內(nèi)的芯片，我們有自己的研發(fā)能力，他們提供接口，我們就可以建立聯(lián)系，快速推送數(shù)據(jù)。

另外一塊，是在推理時對行業(yè)數(shù)據(jù)的利用。無論是我們對上下文的存儲，還是用向量數(shù)據(jù)庫來存行業(yè)積累的高質(zhì)量的數(shù)據(jù)，其實都是在存儲層面，讓訓練時間更短更高效，讓推理的用戶體驗會更好，每秒生成的token（AI處理語言的基本單位）數(shù)量更多，問題和想要答案的關(guān)聯(lián)性也會更高。

現(xiàn)在評價一個大模型系統(tǒng)的推理能力，上下文長度是很重要的指標，這也考驗存儲的能力。如果上下文長度不夠，一個token用完了就馬上扔了，下一個問題和上一個有關(guān)，就得重新算，這會造成大量的GPU資源浪費。

我們現(xiàn)在的方法是，把上下文產(chǎn)生的結(jié)果都存儲下來，還會存到GPU本地。通過這種方式，可以把上下文的窗口做得非常長，token之間的（生成）都會有很大的加速。

我們看到，經(jīng)過優(yōu)化的系統(tǒng)每秒可生成2000到3000個token。這種高速生成并非只靠GPU單方面的算力進步，而是后臺存力向前端GPU持續(xù)釋放數(shù)據(jù)處理能力的結(jié)果，是“存算協(xié)同”的技術(shù)進步。

（作者鄭晨燁）

免責聲明：本文觀點僅代表作者本人，供參考、交流，不構(gòu)成任何建議。