經(jīng)濟觀察報 關(guān)注
2025-08-05 16:54
經(jīng)濟觀察報記者 鄭晨燁
近日,中科曙光存儲科技有限公司(下稱“曙光存儲”)聯(lián)合中國移動研究院,正式發(fā)布了面向“東數(shù)西算”的存算一體化調(diào)度平臺,其目標是解決“東數(shù)西算”工程中的一個具體難題——存放在西部的數(shù)據(jù),東部的算力用不上、用不好,數(shù)據(jù)調(diào)度效率低下。
這一合作的背后,是中國AI投資領域一個特殊的現(xiàn)狀:曙光存儲副總裁張新鳳在與記者的交流中介紹,國內(nèi)市場在算力與存力上的投資配比約為40:1,而國外市場這一數(shù)字通常在10:1之內(nèi)。
巨大的投資傾斜于以GPU為代表的算力,但效率的瓶頸卻出現(xiàn)在了另一端。
“存儲無論在哪個層面都是瓶頸,”曙光存儲總裁何振對經(jīng)濟觀察報記者表示,“數(shù)據(jù)跟不上,我們前面跑得再快都沒有用。”在何振看來,這種因數(shù)據(jù)流轉(zhuǎn)不暢導致的“算力空等”,代價是昂貴的。其團隊測算,在存力上每投入1元,或可為算力節(jié)省10元成本。
解決這一效率問題,需要深厚的技術(shù)能力,而該領域曾長期由國外廠商主導,國內(nèi)廠商具備提供解決方案的能力,是近些年才發(fā)生的變化。中科曙光(603019.SH)旗下的曙光存儲,是其中的一家國內(nèi)廠商,經(jīng)過21年的研發(fā)投入,按照其總裁何振的說法,該公司已經(jīng)走完了一個從研發(fā)是“負擔”到研發(fā)是“護城河”的階段。當市場環(huán)境變化,原先的國外廠商逐步退出,這使得曙光存儲有機會憑借其技術(shù)積累直接面向市場,其集中式存儲產(chǎn)品,近年在SPC-1國際基準評測(一項國際公認的存儲性能權(quán)威測試)中,性能排名全球第一。
這種從追趕到提供解決方案的角色變化,也反映了中國科技產(chǎn)業(yè)格局的變遷。8月1日,圍繞中國存儲及AI產(chǎn)業(yè)的現(xiàn)狀、瓶頸與未來,經(jīng)濟觀察報與曙光存儲總裁何振展開了對話。
|對話|
AI基建的三大難題
經(jīng)濟觀察報: 當前行業(yè)在AI算力上投入巨大,但你似乎認為,真正的瓶頸并不在算力本身,而是在更基礎的數(shù)據(jù)層面,具體是指什么?
何振:我們現(xiàn)在能看到,無論是國外的英偉達還是國內(nèi)的一眾AI芯片廠商,大家都在追求每秒鐘提供多少算力。其實他們假定數(shù)據(jù)可以持續(xù)地喂給GPU卡,這個實際上是一個很有挑戰(zhàn)的事兒。
全國一體化大數(shù)據(jù)中心的建設這個大課題,最近幾年我們一直在和運營商合作。其中我們主要發(fā)揮的作用,是通過他們把這些數(shù)據(jù)中心連通以后,構(gòu)建一個全網(wǎng)數(shù)據(jù)統(tǒng)一管理、跨域流動的大的基礎設施。曙光存儲截至今年,已經(jīng)做了20多年了,針對以往的數(shù)據(jù)中心采用傳統(tǒng)的分布式文件系統(tǒng),要想實現(xiàn)存得下、流得動、用得好,還是要解決以下幾個問題。
第一,數(shù)據(jù)看不全的問題。現(xiàn)在的數(shù)據(jù)中心都是存在一個壁壘里面,相互之間數(shù)據(jù)是不通的,同時每一個數(shù)據(jù)中心里面采用的不同廠家的系統(tǒng)又不兼容,導致數(shù)據(jù)很難統(tǒng)一管理,形成統(tǒng)一的目錄。所以對企業(yè)來說,這是看不全的。
第二,理不順。我們一直說現(xiàn)在的數(shù)據(jù),不管是從上百TB(計算機存儲容量單位,1TB等于1024GB)或者上千TB,特別是隨著AI技術(shù)的發(fā)展,對這些數(shù)據(jù)的價值如何深度和快速的定位,以及數(shù)據(jù)跨域之間如何可以快速地流通,這是我們目前面臨最重要的問題。
第三個問題,是我們一直提到的數(shù)據(jù)用不好。在“東數(shù)西存”的戰(zhàn)略下,把一些冷的數(shù)據(jù)存到西部,熱的數(shù)據(jù)跟算力中心離得近一些。當然這個過程是在傳統(tǒng)數(shù)據(jù)中心里面一直沒有解決的問題,數(shù)據(jù)存那以后,我存到西部,東部的一些業(yè)務系統(tǒng)調(diào)用這個數(shù)據(jù)的話,延遲比較長,比較慢,所以這也是我們一直說用得不好的主要原因。就是使用的感受不是很好。
經(jīng)濟觀察報: 你認為存儲是瓶頸,但這似乎與行業(yè)當下“大力出奇跡”的算力競賽相悖,為什么會出現(xiàn)這種情況?
何振:圍繞著人工智能市場的發(fā)展,這兩年提出來的是性能,我們要追求更高的天花板。因為傳統(tǒng)的系統(tǒng)里面,我們可以看到,整個IT系統(tǒng)建設,底層是存儲,中層是網(wǎng)絡,再上面是計算,再往外就是我們的各種移動終端和最終用戶。這三層建設里面,存儲無論在哪個層面都是瓶頸。
AI芯片廠商都在追求每秒鐘提供多少算力,他們假定數(shù)據(jù)可以持續(xù)地喂給GPU卡,這個實際上是一個很有挑戰(zhàn)的事兒。一方面,網(wǎng)絡本身要非常強大,現(xiàn)在,200G、400G乃至800G帶寬的高速網(wǎng)卡,已經(jīng)應用到服務器上;另一方面,這些原始數(shù)據(jù)所在的存儲平臺,是不是能支撐?
這就是我們說的IOPS(每秒讀寫操作次數(shù)),帶寬,單流的帶寬,這個層面的挑戰(zhàn)越來越大。因為前面的算力,無論是英偉達為主的,還是國內(nèi)的一眾廠商,大家都在追求這件事兒,存儲要跟得上才能不拖后腿。永遠會有一個存儲瓶頸,達到天花板的時候,前面跑得再快都沒有用,因為數(shù)據(jù)跟不上。
經(jīng)濟觀察報: 這些存在于底層的數(shù)據(jù)難題,在具體的商業(yè)場景中如何體現(xiàn),AI的出現(xiàn)又帶來了哪些新變化?
何振:這些問題是一直存在的。比如自動駕駛,路測車每天每輛車是幾TB到十幾TB的數(shù)據(jù),這些采集的數(shù)據(jù),首先會集中到一個中心處理,然后進行脫敏、標注,再到數(shù)據(jù)訓練,是這么一個流程。以往我們的用戶需要買不同廠家、不同類型的存儲,每個數(shù)據(jù)處理完了以后,還要把數(shù)據(jù)挪到下一個存儲里面去,這些過程對于用戶的投資,還有數(shù)據(jù)流動的效率,都是非常大的挑戰(zhàn)。
到了AI時代,這個問題就更嚴重了。比如大數(shù)據(jù)的訓練,對IOPS的性能要求提高了數(shù)十倍到百倍,這是大家可以感受到的變化。我們以前做大規(guī)模的存儲系統(tǒng),可能說幾百Gb的帶寬就很高了,現(xiàn)在基本是十幾個TB。
經(jīng)濟觀察報: 與中國移動合作落地國家級戰(zhàn)略,這個項目的契機是什么?
何振:我們做的這個平臺是中國移動主動提出來的。這個方向我們之前,應該說是至少十年之前,我們都考慮過統(tǒng)一存儲調(diào)度平臺的事兒,因為存儲要解決的問題就那幾個方面:容量、性能、數(shù)據(jù)的流動。如果我們要解決數(shù)據(jù)流動的問題,做一個類似全球統(tǒng)一的空間,這是必然要走的路線。
但是我們也關(guān)注投入產(chǎn)出比,如果市場上沒有看到有實際的需求,能把我們的投入轉(zhuǎn)化為收益,我們可能也就是做一些技術(shù)的預判,但是不會那么快投入。我們投入這個,確實是中國移動看到有具體的落地場景和需求了。
他們當時給我們提出這個事兒的背景有兩個。第一個,移動自己有業(yè)務需要。他們從2020年開始就成為我們的客戶,現(xiàn)在已經(jīng)合作6年了。我們在中國移動上線了上千套的存儲,分布在多個子公司和資源池。現(xiàn)在這么多的數(shù)據(jù),到底有多少數(shù)據(jù)資產(chǎn)他們是不清楚的,因為都是數(shù)據(jù)存儲的孤島。
第二個問題,當時我們國家在提“東數(shù)西算”,希望把西部的能源資源優(yōu)勢充分利用起來。而像移動這樣的運營商,他們的身份,是特別適合幫國家落地這個戰(zhàn)略的。
他們?yōu)槭裁凑业绞锕獯鎯Γ恳驗檫@個事情是比較復雜的,我們要跨異構(gòu)、跨地域?qū)崿F(xiàn)數(shù)據(jù)流動,這里面有很多問題需要解決。這是困擾很多廠商的問題,要解決這個問題,必須找一個有全棧技術(shù)自研沉淀的廠商才能做。
多年自研沉淀為護城河
經(jīng)濟觀察報:在一個更看重“短平快”的商業(yè)環(huán)境中,曙光存儲為什么會選擇全棧自研路徑?
何振:存儲和其他產(chǎn)品不一樣,是有一定技術(shù)門檻的。曙光存儲成立到今年是整整21年,我們現(xiàn)在整個團隊的規(guī)模大概是1千多人,在國內(nèi)存儲領域我們是排到第一或者第二的規(guī)模。我們一千多人里面,90%以上都是研發(fā)人員。
人工智能的市場,本身就是從高性能計算領域演化出來的,我們長期的技術(shù)積累,最終等來了兩個變化。第一是(我們自身)厚積薄發(fā)到一定程度,優(yōu)勢就凸顯了,形成了護城河;第二是中美科技領域的斗爭越來越激烈,原來代表高性能的EMC(易安信,美國信息存儲資訊公司)等等,已經(jīng)全面地退出了中國的市場,這個時候我們的優(yōu)勢就凸顯出來了,因為代碼是自己寫的,性能又不比他們差,所以我們的機會也就來了。
特別是像國內(nèi)部分知名的頭部廠商,他們原來都是基于國外的內(nèi)核做了優(yōu)化和調(diào)整,但是在國產(chǎn)化的浪潮下,或者是國內(nèi)對于存儲的安全性和數(shù)據(jù)安全越來越重視的情況下,他們的優(yōu)勢已經(jīng)沒有了,反而我們的自研變成了護城河,他們開始找我們合作,要我們的產(chǎn)品。
不管是我們的分布式產(chǎn)品,還是集中式產(chǎn)品,現(xiàn)在都已經(jīng)領先于國外的任何一款產(chǎn)品了。特別是以集中式存儲來說,我們的產(chǎn)品在今年的打榜中,以3千萬的IOPS,0.202毫秒的延遲,登頂世界第一,打破了國外存儲在性能上對我們一直碾壓的勢頭。
我們現(xiàn)在的產(chǎn)品,性能上去了,但是成本也要比國外的便宜很多。為什么我們現(xiàn)在一直敢說曙光存儲一定要成為中國的EMC?因為我們這么多年自研的沉淀,變成了護城河。
“存算協(xié)同”的技術(shù)進步
經(jīng)濟觀察報: 過去都說AI是“億元投入”的游戲,現(xiàn)在這個門檻降低了嗎?新的瓶頸又出現(xiàn)在哪里?
何振:2024年之前,我們做大模型的時候,做的都是大模型的訓練,如果要建一個大模型訓練平臺,幾億元都有點少,基本是十幾億元,甚至幾十億元的投入。在這個時候確實是不太有企業(yè)或者客戶具備這個能力來投入。
但是2024年DeepSeek出來以后,極大地降低了進入AI的門檻,從訓練轉(zhuǎn)到推理邏輯,這個對整體的算力和存力,要求都沒那么高了。目前來說,到大數(shù)據(jù)推理應用的階段,其實是國內(nèi)自己有了更多的機會,也降低了大眾接觸AI的門檻。
但到了推理階段,所面向的用戶群體五花八門,隨之而來的新瓶頸,就是隱私計算和可信計算的問題——這也是國家層面的明確要求。
實際上,數(shù)據(jù)安全是我們從一開始就考慮到的核心問題。在曙光存儲的體系中,我們能做到數(shù)據(jù)的隔離、加密和校驗。從架構(gòu)上看,無論是底層的國產(chǎn)化芯片、中間的通訊鏈路,還是前端的網(wǎng)絡接口,我們都實現(xiàn)了全鏈路的安全加密,能夠隨時對接國家的相關(guān)政策與安全標準。
未來隨著人工智能在各行各業(yè)的進一步發(fā)展,信息安全將是所有用戶都更加關(guān)注的問題。
經(jīng)濟觀察報: 要實現(xiàn)AI普惠,除了降低入口門檻,更關(guān)鍵的是要讓AI用得起,從存儲技術(shù)角度看,降低AI運行成本的關(guān)鍵是什么?
何振:對于我們做存儲的廠商來說,最核心的一點,是提升GPU資源的利用率。我們不能讓GPU等數(shù)據(jù),要把數(shù)據(jù)以最短的路徑運到離GPU最近、最快的介質(zhì)上。
我們有一個測算,在存力上每投入一塊錢,算力可以節(jié)約10塊錢。這背后有一套完整的計算鏈路和數(shù)據(jù)可以支撐。
具體來說,我們針對這個做了很多事情。比如我們做了GDS(一項旨在優(yōu)化GPU與存儲設備之間數(shù)據(jù)傳輸效率的技術(shù)),從存儲到GPU的時候,不需要CPU和內(nèi)存的參與,可以通過一個專門通道過去。目前我們支持國外的(芯片),也支持國內(nèi)的芯片,我們有自己的研發(fā)能力,他們提供接口,我們就可以建立聯(lián)系,快速推送數(shù)據(jù)。
另外一塊,是在推理時對行業(yè)數(shù)據(jù)的利用。無論是我們對上下文的存儲,還是用向量數(shù)據(jù)庫來存行業(yè)積累的高質(zhì)量的數(shù)據(jù),其實都是在存儲層面,讓訓練時間更短更高效,讓推理的用戶體驗會更好,每秒生成的token(AI處理語言的基本單位)數(shù)量更多,問題和想要答案的關(guān)聯(lián)性也會更高。
現(xiàn)在評價一個大模型系統(tǒng)的推理能力,上下文長度是很重要的指標,這也考驗存儲的能力。如果上下文長度不夠,一個token用完了就馬上扔了,下一個問題和上一個有關(guān),就得重新算,這會造成大量的GPU資源浪費。
我們現(xiàn)在的方法是,把上下文產(chǎn)生的結(jié)果都存儲下來,還會存到GPU本地。通過這種方式,可以把上下文的窗口做得非常長,token之間的(生成)都會有很大的加速。
我們看到,經(jīng)過優(yōu)化的系統(tǒng)每秒可生成2000到3000個token。這種高速生成并非只靠GPU單方面的算力進步,而是后臺存力向前端GPU持續(xù)釋放數(shù)據(jù)處理能力的結(jié)果,是“存算協(xié)同”的技術(shù)進步。