當(dāng)下,人工智能技術(shù)正深刻改變著世界。
隨著模型規(guī)模、數(shù)據(jù)量的持續(xù)突破與學(xué)習(xí)范式的迭代,大模型開始具備對(duì)海量數(shù)據(jù)進(jìn)行深度捕捉與跨領(lǐng)域關(guān)聯(lián)的新能力,這為其在更復(fù)雜、更開放的現(xiàn)實(shí)場(chǎng)景中實(shí)現(xiàn)自主決策與創(chuàng)新應(yīng)用奠定了基礎(chǔ)。AIDC作為人工智能時(shí)代的關(guān)鍵基礎(chǔ)設(shè)施,在推動(dòng)“AI業(yè)務(wù)化、業(yè)務(wù)AI化”的過(guò)程中扮演著至關(guān)重要的角色。
運(yùn)載力作為承載數(shù)據(jù)傳輸?shù)耐,在AIDC建設(shè)中的作用不言而喻。為了更好的滿足AIDC在數(shù)據(jù)傳輸與管理上的需求,近日,浪潮信息旗下元脈網(wǎng)絡(luò)正式發(fā)布“AIDC解決方案”,該方案可以提供高帶寬與低延遲協(xié)同、高可靠性與容錯(cuò)能力兼容、靈活敏捷與安全可靠并蓄的聯(lián)接能力,全面推動(dòng)AI應(yīng)用新局面。
核心挑戰(zhàn):多資源共存、多網(wǎng)絡(luò)融合、智能化運(yùn)維
隨著技術(shù)的持續(xù)精進(jìn)和應(yīng)用場(chǎng)景的不斷擴(kuò)展,AIDC在推動(dòng)科技進(jìn)步、促進(jìn)產(chǎn)業(yè)創(chuàng)新、提升社會(huì)管理水平等方面都具備不可替代的戰(zhàn)略意義。在場(chǎng)景融合應(yīng)用上,AIDC承載了更多變、更復(fù)雜的交互需求及運(yùn)載任務(wù),與傳統(tǒng)數(shù)據(jù)中心相比,AIDC網(wǎng)絡(luò)需要滿足超大規(guī)模并行計(jì)算在無(wú)損傳輸、動(dòng)態(tài)調(diào)度等方面的需求。AIDC對(duì)運(yùn)載網(wǎng)絡(luò)提出如下挑戰(zhàn):
多資源共存:在 AI 驅(qū)動(dòng)的新一代數(shù)據(jù)中心中,多類型業(yè)務(wù)與多資源池的協(xié)同共存成為顯著特征。以基于 RAG(檢索增強(qiáng)生成)技術(shù)的大模型應(yīng)用為例,其運(yùn)行過(guò)程需動(dòng)態(tài)、實(shí)時(shí)調(diào)用多元化資源。要求運(yùn)載網(wǎng)絡(luò)可以提供更大的帶寬、更低的時(shí)延,滿足多資源共存前提下的數(shù)據(jù)傳輸要求。
多網(wǎng)絡(luò)融合:傳統(tǒng)數(shù)據(jù)中心多采用標(biāo)準(zhǔn)架構(gòu),劃分為業(yè)務(wù)、存儲(chǔ)、管理幾張網(wǎng)絡(luò),而AIDC還需設(shè)定獨(dú)立的AI計(jì)算網(wǎng)、存儲(chǔ)網(wǎng)等;诓煌瑯I(yè)務(wù)流量間的特征及性能差異,AI時(shí)代的數(shù)據(jù)中心要兼顧多張網(wǎng)絡(luò)的融合需求,節(jié)約投資、簡(jiǎn)化管理。
智能化運(yùn)維:面對(duì)更加龐大的系統(tǒng)規(guī)模,網(wǎng)絡(luò)自身也需要具備“會(huì)思考”、“懂業(yè)務(wù)”的能力,可以智能化運(yùn)維、自動(dòng)化管理,以適應(yīng)復(fù)雜多變的應(yīng)用場(chǎng)景需求,提升管理效率,降低運(yùn)維成本。 綜上所述,數(shù)據(jù)傳輸需要進(jìn)行全方位的能力升級(jí),在多資源共存、多網(wǎng)絡(luò)融合、智能化運(yùn)維等方面持續(xù)創(chuàng)新,讓AIDC的網(wǎng)絡(luò)性能做加法、管理做減法。
破局之道:元脈網(wǎng)絡(luò)“AIDC”解決方案
浪潮信息是最早布局大模型的企業(yè)之一,具備從算力、算法、數(shù)據(jù)、到互聯(lián)的全棧解決方案能力。在數(shù)據(jù)傳輸領(lǐng)域,浪潮信息旗下元脈網(wǎng)絡(luò)立足AIDC網(wǎng)絡(luò)建設(shè)核心訴求,推出 “AIDC解決方案”。幫助客戶提供高帶寬與低延遲協(xié)同、高可靠性與容錯(cuò)能力兼容、靈活敏捷與安全可靠并蓄的聯(lián)接能力。緩解AIDC建設(shè)時(shí)的海量數(shù)據(jù)傳輸壓力,滿足用戶在智能自動(dòng)部署、極簡(jiǎn)開局、精準(zhǔn)智能運(yùn)維方面的需求,加速釋放數(shù)據(jù)價(jià)值。

方案核心組件包括交換機(jī)和ICE智能運(yùn)管平臺(tái),具有如下特點(diǎn):
■ 全棧產(chǎn)品 全面覆蓋:元脈網(wǎng)絡(luò)提供適配AIGC智算中心、高性能計(jì)算、云數(shù)據(jù)中心等融合場(chǎng)景的全棧交換機(jī)產(chǎn)品,涵蓋 10G/25G/100G/200G/400G 等多速率接口,全系支持 RoCE 無(wú)損網(wǎng)絡(luò)協(xié)議。
■ 自動(dòng)部署 智能運(yùn)維:元脈網(wǎng)絡(luò)AIDC解決方案,能夠?qū)崿F(xiàn)多資源池網(wǎng)絡(luò)的統(tǒng)一配置和管理,覆蓋部署、上線、監(jiān)控、運(yùn)維等全生命周期,為用戶呈現(xiàn)統(tǒng)一界面和視圖。
■ 開放接口 敏捷靈活:元脈網(wǎng)絡(luò)依托開放兼容的接口體系,可以實(shí)現(xiàn)與多業(yè)務(wù)平臺(tái)的敏捷對(duì)接,并通過(guò)動(dòng)態(tài)化管理機(jī)制,實(shí)時(shí)精準(zhǔn)適配業(yè)務(wù)需求。
性能做加法、管理做減法:元脈網(wǎng)絡(luò)讓AIDC智穩(wěn)兼容
針對(duì) AIDC 網(wǎng)絡(luò)聯(lián)接的核心訴求,元脈網(wǎng)絡(luò)以性能升級(jí)與管理優(yōu)化為切入點(diǎn),通過(guò)強(qiáng)化高帶寬、低時(shí)延的傳輸能力,以及智能化的資源調(diào)度體系,全面提升 AIDC 網(wǎng)絡(luò)的聯(lián)接效能,為大模型訓(xùn)練推理、海量數(shù)據(jù)交互等 AI 業(yè)務(wù)場(chǎng)景提供穩(wěn)定高效的底層支撐,助力 AI 業(yè)務(wù)實(shí)現(xiàn)規(guī);l(fā)展。
■ 元脈RoCE 給性能做加法:
在 AI 訓(xùn)練等場(chǎng)景中,對(duì)網(wǎng)絡(luò)性能的極致追求貫穿始終,這使得帶寬、延遲和可靠性成為核心考量要素。元脈 RoCE 憑借自適應(yīng)路由、報(bào)文保序等技術(shù),讓交換機(jī)和網(wǎng)卡實(shí)現(xiàn)了更為緊密的協(xié)同配合。為 AI 大模型打造零丟包、無(wú)阻塞的全鏈路交換網(wǎng)絡(luò),不僅將有效帶寬從傳統(tǒng)的 60% 提升至 95%,其性能更是達(dá)到了傳統(tǒng) RoCE 的1.6倍。
當(dāng)集群里部分鏈路發(fā)生故障時(shí),元脈RoCE依托全局自適應(yīng)路由保護(hù)帶寬性能,將影響降至最低,相對(duì)于動(dòng)態(tài)負(fù)載均衡(DLB)方案,大模型訓(xùn)練效率提升28%。而AI集群在多租戶場(chǎng)景下會(huì)多個(gè)模型同時(shí)運(yùn)行,元脈RoCE的租戶流量隔離能力可以充分的保證各個(gè)模型的高效運(yùn)行,互不影響。
■ 智能運(yùn)管平臺(tái) 讓管理做減法:
元脈網(wǎng)絡(luò)AIDC解決方案聚焦部署、上線、運(yùn)維全生命周期管理需求,通過(guò)從“ Day0 到 Day2”各階段的精準(zhǔn)施策,實(shí)現(xiàn)全流程輕量化運(yùn)維。同時(shí),可圖形化展示服務(wù)器、GPU、網(wǎng)卡和內(nèi)部拓?fù)湫畔,支撐全路徑網(wǎng)絡(luò)瓶頸排查,提供端到端的運(yùn)維能力。
在智能運(yùn)維進(jìn)階上,元脈網(wǎng)絡(luò)AIDC解決方案支持多網(wǎng)絡(luò)的可視化配置與管理,及訓(xùn)前一鍵NCCL壓力測(cè)試,將部署時(shí)間從數(shù)周縮短到數(shù)天,極大簡(jiǎn)化用戶的運(yùn)維部署成本;基于AI算法精準(zhǔn)監(jiān)控光模塊的各項(xiàng)指標(biāo),達(dá)到故障“主動(dòng)預(yù)警、提前干預(yù)”的目的。
AI賦能未來(lái) 互聯(lián)構(gòu)筑基石
元脈® 浪潮信息旗下網(wǎng)絡(luò)業(yè)務(wù)品牌,作為AI時(shí)代網(wǎng)絡(luò)創(chuàng)新引領(lǐng)者,可以為用戶提供面向AI時(shí)代的智算中心、數(shù)據(jù)中心、邊緣網(wǎng)絡(luò)等全棧網(wǎng)絡(luò)方案。并堅(jiān)持智能、開放、可靠的發(fā)展理念,不斷深化自身在技術(shù)創(chuàng)新、場(chǎng)景創(chuàng)新、合作創(chuàng)新方面的能力,為AI時(shí)代算力、數(shù)據(jù)價(jià)值的釋放,打造堅(jiān)實(shí)互聯(lián)基石。