AI存力卡位戰(zhàn)高性能磁鐵 ,國產(chǎn)存儲如何破局?
文|趙艷秋 周享玥
編|石兆
今年開年后,當(dāng)DeepSeek等攪動的大模型應(yīng)用熱潮在各行業(yè)迅速蔓延時,一場更底層的競賽,已在AI基礎(chǔ)設(shè)施領(lǐng)域悄然爆發(fā)高性能磁鐵 。國產(chǎn)存儲企業(yè),正在高性能存儲市場上發(fā)起攻勢。
“DeepSeek等在應(yīng)用側(cè)產(chǎn)生的效果,徹底點燃了企業(yè)應(yīng)用AI的信心高性能磁鐵 ?!本〇|云相關(guān)負(fù)責(zé)人告訴數(shù)智前線,大中型企業(yè)今年普遍在AI基礎(chǔ)設(shè)施上投入更多資源和預(yù)算。但第三方調(diào)研顯示,超過76%的企業(yè)AI項目,因存儲性能利用率不足,直接造成15%-30%的算力損耗。
存儲,這個此前被經(jīng)?!昂鲆暋钡馁惖溃诮裉煺兊门e足輕重高性能磁鐵 。高性能存儲已成為智算中心標(biāo)配,占AI Infra的15%左右,而今年新增市場將是之前的數(shù)倍。
僅第一季度,京東云就已基本完成兩個超大智算中心項目實施高性能磁鐵 。客戶對存儲的要求驚人地一致,就是高性能,以滿足他們大模型訓(xùn)練和應(yīng)用的需求。京東云提供存儲系統(tǒng),適配了業(yè)界最高的400G IB網(wǎng)絡(luò),并成功將存儲帶寬利用率推升至84%。
此前,高性能存儲幾乎是國際廠商的天下高性能磁鐵 。而在新一輪AI變局中,市場爭奪和重塑的背后,是國內(nèi)企業(yè)在技術(shù)商業(yè)以及人才團(tuán)隊上,長達(dá)10多年的積累。
01
新一輪AI趨勢下高性能磁鐵 ,存力變化幾何?
新一輪人工智能,對高性能存儲的技術(shù)商業(yè)影響極大高性能磁鐵 。
DeepSeek推出后,推理市場正在爆發(fā)高性能磁鐵 。IDC預(yù)測,2025年推理工作負(fù)載的占比,將達(dá)到近7成。人們可能認(rèn)為,推理對AI基礎(chǔ)設(shè)施的性能要求要低于訓(xùn)練,但事實并非如此。
“從DeepSeek發(fā)布的產(chǎn)品特征來看,對于存儲性能的需求,還會再上一個臺階高性能磁鐵 。理論上,推理對存儲的讀取性能要求,會遠(yuǎn)超訓(xùn)練。”京東云資深人士說,以DeepSeek的671B模型為例,要求存儲讀取速度突破每秒TB級,才能支撐GPU推理集群的秒級擴(kuò)展。而只有這樣的彈性擴(kuò)展能力,才能達(dá)到人們縮短首次token輸出時間的期望。
隨著AI應(yīng)用落地,很多企業(yè)也開始重視推理成本高性能磁鐵 。DeepSeek已采用如PD分離技術(shù),將推理的預(yù)填充(Prefill)和解碼(Decode)階段分開部署,分配不同硬件資源,來提升推理性價比。在一些真實場景中,PD分離讓長文本生成速度提升5倍以上。京東云人士則告訴數(shù)智前線,PD分離結(jié)合存儲、kv緩存,可進(jìn)一步大幅提升推理性價比,該團(tuán)隊已在這一方向上展開技術(shù)攻關(guān)。
除了推理市場給高性能存儲帶來的挑戰(zhàn),后訓(xùn)練的增加,對存力市場的影響也不小高性能磁鐵 。業(yè)界的共識是,全球只有少數(shù)幾家企業(yè)將繼續(xù)做預(yù)訓(xùn)練,在大模型技術(shù)上持續(xù)摸高。而大多數(shù)大中型企業(yè),做后訓(xùn)練的頻率將增加。
相比于預(yù)訓(xùn)練,后訓(xùn)練對語料數(shù)量要求更少,訓(xùn)練周期也會縮短,但與預(yù)訓(xùn)練一樣,對存儲在時延、吞吐和帶寬等性能以及可靠性上,同樣提出極致高要求高性能磁鐵 。這就像“數(shù)據(jù)輸油管”,如果輸送得不夠快、不夠穩(wěn)定,耗資巨大的GPU集群就無法工作。
在行業(yè)市場,汽車智駕、AI醫(yī)療等賽道,成為存儲性能的角斗場高性能磁鐵 。
某醫(yī)療AI企業(yè)影像診斷系統(tǒng),因小文件處理延遲,導(dǎo)致急診響應(yīng)超時率升高至12%高性能磁鐵 。2024年,國家醫(yī)保局在放射檢查類相關(guān)指南中,首次將人工智能輔助診斷列入立項指南,在一些三甲醫(yī)院,AI輔助閱片已落地應(yīng)用。AI輔助閱片要求在10多分鐘內(nèi),就要完成1T數(shù)據(jù)的讀取、加載和訓(xùn)練,醫(yī)療市場的原有存儲系統(tǒng)正受到挑戰(zhàn)。
在汽車行業(yè),多家車企在智駕系統(tǒng)上展開了“軍備競賽”高性能磁鐵 。頻繁的模型訓(xùn)練,對有強(qiáng)大并行處理能力的文件存儲系統(tǒng),提出強(qiáng)烈需求。一臺L3級別的自動駕駛測試車,平均每天產(chǎn)生60TB的數(shù)據(jù),完整測試產(chǎn)生的數(shù)百PB數(shù)據(jù),需要存儲30年以上。車企也對低成本海量存儲提出明確需求。
此前,高性能存儲市場,基本被海外產(chǎn)品覆蓋高性能磁鐵 。最近兩年,國產(chǎn)存儲企業(yè)嶄露頭角,競賽已在日夜吞吐數(shù)據(jù)的存儲系統(tǒng)中,悄然打響。
02
國產(chǎn)高性能存儲在激烈爭奪市場
早期,國內(nèi)企業(yè)如新能源車企,在構(gòu)建AI Infra時,從算力、網(wǎng)絡(luò)到存儲,幾乎都要花天價,采購海外廠商的全套技術(shù)棧高性能磁鐵 。當(dāng)時,國內(nèi)沒有相應(yīng)的自研高性能存儲技術(shù),主要以海外企業(yè)DDN、IBM GPFS為主。
不過,市場已發(fā)生快速轉(zhuǎn)變高性能磁鐵 。國產(chǎn)高性能存儲在近幾年介入市場,并展現(xiàn)出強(qiáng)勁勢頭。2024年,京東云高性能存儲平臺“云海”,營收增長就高達(dá)10倍。云海是京東云在2022推出的國產(chǎn)全自研并行文件存儲系統(tǒng)。他們期望抓住當(dāng)下新一輪AI發(fā)展中,頭部用戶構(gòu)建、升級AI Infra的時機(jī),重塑市場格局。
某頭部銀行訓(xùn)練金融大模型時,原有存儲系統(tǒng)性能無法滿足需求,在訓(xùn)練過程中出現(xiàn)了數(shù)據(jù)流動低效、帶寬不夠大、吞吐性能不足、算力閑置等痛點,大模型訓(xùn)練跑不起來高性能磁鐵 。在替換成云海高性能存儲后,通過存算分離技術(shù)架構(gòu),實現(xiàn)了超50GiB/S吞吐帶寬,文件響應(yīng)延遲低至100微秒,大幅減少GPU等待時間,讓模型訓(xùn)練周期縮短40%。
在一些新能源車企,在數(shù)千卡規(guī)模模型訓(xùn)練集群中,結(jié)合云海,比使用海外技術(shù),成本降低了大約一半以上高性能磁鐵 。
但國產(chǎn)高性能存儲,并不是橫空出世,需要企業(yè)突破性能、可靠性、成本以及自主可控四大難關(guān)高性能磁鐵 。
在這個過程中,云海經(jīng)歷了三大發(fā)展階段:存算分離階段、AI及大模型訓(xùn)練階段、推理潮階段,并聚焦研發(fā)了高性能并行文件存儲系統(tǒng)、統(tǒng)一引擎等相關(guān)核心技術(shù),以自研、高性能、低成本的系統(tǒng)角逐市場高性能磁鐵 。
以高性能的并行文件系統(tǒng)為例,它更適合人工智能場景下,頻繁小文件隨機(jī)讀寫和低延遲場景高性能磁鐵 。比如,在AI輔助診斷系統(tǒng),可將數(shù)十萬個CT切片,多個節(jié)點同時對數(shù)據(jù)進(jìn)行讀寫操作、并行分析。
為了提升大模型訓(xùn)練速度,需要對大規(guī)模數(shù)據(jù)集進(jìn)行快速加載,且一般采用數(shù)百甚至上萬張GPU構(gòu)成計算集群進(jìn)行高效的并行計算,需要高并發(fā)輸入/輸出(I/O)處理,而訓(xùn)練數(shù)據(jù)集呈現(xiàn)海量小文件的特點,文件量在幾億到幾十億量級,對應(yīng)的帶寬需求可能每秒要達(dá)到上TB,這就要求存儲系統(tǒng)具備強(qiáng)大的數(shù)據(jù)管理能力高性能磁鐵 。
目前,業(yè)界有一些開源技術(shù),而自研高性能并行文件的企業(yè)僅寥寥幾家高性能磁鐵 。京東云是其中之一,將系統(tǒng)性能“壓榨”到極致。一家客戶在選型時,將云海與海外產(chǎn)品PK,最終得出的結(jié)論是,云海性能與海外產(chǎn)品相當(dāng),但網(wǎng)絡(luò)帶寬利用率,高出近3個百分點。以單節(jié)點95GB/s的讀帶寬、60GB/s的寫帶寬,進(jìn)一步拉低了國產(chǎn)存儲與國際老牌廠商的差距。
在另一個創(chuàng)新點——統(tǒng)一存儲引擎上,傳統(tǒng)上有不同存儲類型,導(dǎo)致企業(yè)內(nèi)部的存儲系統(tǒng)五花八門高性能磁鐵 。之前有客戶買了五套存儲系統(tǒng),導(dǎo)致數(shù)據(jù)很難統(tǒng)籌,成了大模型訓(xùn)練應(yīng)用的掣肘。得益于京東云團(tuán)隊在存儲技術(shù)上多年的積累、在多業(yè)務(wù)場景下的實戰(zhàn),云海在設(shè)計時,得以實現(xiàn)高度的抽象化,從而讓一個引擎,滿足企業(yè)內(nèi)部多元場景的需求。
存儲系統(tǒng)的可靠性,幾乎是企業(yè)構(gòu)建底座的底線高性能磁鐵 。存儲一旦出問題,數(shù)據(jù)丟失,將帶來災(zāi)難性問題。而可靠性的追求永無止境,關(guān)鍵要找到它與性能、成本之間的最佳平衡點。京東云的創(chuàng)新涉及算法、架構(gòu),并獲得了國家相關(guān)專利?!熬〇|云云海未出現(xiàn)任何導(dǎo)致客戶服務(wù)中斷的故障。”上述資深人士說。
根據(jù)信通院測試,云海代碼自研率達(dá)到98.9%+,并全面支持國產(chǎn)硬件環(huán)境,這需要與國產(chǎn)多元芯片、操作系統(tǒng),做大量對接、優(yōu)化和相互認(rèn)證高性能磁鐵 。而在支持國產(chǎn)化的情況下,云海能做到在一些主流算力平臺上,在CPU主頻相同的情況下,性能與X86平臺近乎等同,而性價比更高。這讓客戶能落地大模型,并獲得正向收益。
03
商業(yè)化兩年高性能磁鐵 ,從懷疑到認(rèn)可
在替代國外存儲產(chǎn)品時,國產(chǎn)存儲經(jīng)歷了客戶態(tài)度從懷疑到認(rèn)可的轉(zhuǎn)變過程高性能磁鐵 。
“起初,客戶難免會有所顧慮,國產(chǎn)全自研的云海高性能存儲,是否能穩(wěn)定可靠地支持AI Infra的要求?”京東云相關(guān)負(fù)責(zé)人對數(shù)智前線說高性能磁鐵 。但隨著與客戶的持續(xù)溝通、PoC測試,以及越來越多頭部客戶案例的出現(xiàn),“大家逐漸認(rèn)識到云海不僅能夠替代,甚至在成本和性能上可能優(yōu)于國外存儲產(chǎn)品”。
這個過程中,京東云云海也逐漸形成一套自己的落地方法論和典型案例集高性能磁鐵 。
例如,客戶在做存儲產(chǎn)品選擇時,一般會重點關(guān)注兩大因素:第一,是否有品牌背書,以避免產(chǎn)品廠商突然消失或停止運維的風(fēng)險高性能磁鐵 。第二,技術(shù)和服務(wù)能力如何。
云海在這兩方面都進(jìn)行了強(qiáng)化,借助于京東云品牌,以技術(shù)能力打動客戶高性能磁鐵 。
京東云資深人士告訴數(shù)智前線,在品牌背書方面,云海不僅歷經(jīng)了京東集團(tuán)10多年大規(guī)模高流量場景驗證,也是國內(nèi)互聯(lián)網(wǎng)廠商中,唯一一家支持存儲系統(tǒng)與云平臺解耦,以獨立產(chǎn)品組件實現(xiàn)輕量化向線下輸出的高性能磁鐵 。
而在技術(shù)能力方面,云海80%以上的項目都通過了用戶的PoC測試高性能磁鐵 。在PoC過程中,客戶能夠清晰了解存儲產(chǎn)品的性能、穩(wěn)定性、故障處理等能力。
另外,是否有在頭部企業(yè)的成熟應(yīng)用案例,并能快速復(fù)制到其他企業(yè),也是打動客戶的關(guān)鍵高性能磁鐵 。上述人士透露,商業(yè)化兩年間,云海已在智能駕駛、銀行、券商、泛互聯(lián)網(wǎng)等行業(yè)的頭部企業(yè)中,實現(xiàn)了成功落地。
在解決傳統(tǒng)基礎(chǔ)設(shè)施存算分離問題的階段,云海曾協(xié)助中信證券、中信建投等頭部券商和銀行完成了存算分離的工作高性能磁鐵 。在泛互聯(lián)網(wǎng)行業(yè),云海幫助荔枝FM和墨跡天氣實現(xiàn)了綜合存儲成本直降30%……
這些云海的第一階段的客戶,在最新這波大模型浪潮中,基于之前建立的信任基礎(chǔ),實現(xiàn)了延續(xù)高性能磁鐵 。“只要之前用我們存算分離存儲系統(tǒng)的,現(xiàn)在在AI Infra層面,有并行文件高性能存儲需求的,幾乎100%都選擇了云海。 ”上述人士告訴數(shù)智前線。
某頭部券商的傳統(tǒng)存儲架構(gòu),隨著其金融業(yè)務(wù)擴(kuò)大,逐漸暴露出資源利用率低、存儲架構(gòu)不夠靈活、存儲性能不足、故障難恢復(fù)等問題,為支撐業(yè)務(wù)發(fā)展,該券商基于云海構(gòu)建了統(tǒng)一云原生存儲架構(gòu)體系,實現(xiàn)數(shù)據(jù)高效存儲與流動,滿足了“小微化、高頻化”的業(yè)務(wù)新模式,支撐證券業(yè)務(wù)系統(tǒng)頻繁變更高性能磁鐵 。同時,存儲平臺兼容多存儲接口類型,與用戶業(yè)務(wù)系統(tǒng)無縫鏈接。
國內(nèi)某汽車廠商在做大模型訓(xùn)練時,面臨GPU集群閑置的問題,希望存儲廠商能幫忙提升集群使用效率高性能磁鐵 。“我們之前給它做了估算,GPU集群閑置5%左右的時間,成本就已經(jīng)與重建一套分布式存儲集群相當(dāng)。”京東云資深人士告訴數(shù)智前線,為了將GPU的等待時間降下來,云海做了一套高性能并行文件系統(tǒng)解決方案,來支撐它約100T的數(shù)據(jù)集訓(xùn)練,實現(xiàn)秒級讀寫。
隨著大模型應(yīng)用的爆發(fā)式增長,AI基礎(chǔ)設(shè)施領(lǐng)域正經(jīng)歷一場前所未有的變革高性能磁鐵 。從金融到汽車,從互聯(lián)網(wǎng)到醫(yī)療,各行業(yè)對高性能AI基礎(chǔ)設(shè)施都提出迫切需求。而在激烈角逐中,高性能存儲作為關(guān)鍵環(huán)節(jié),正見證國產(chǎn)力量的強(qiáng)勢崛起。