飛象網(wǎng)訊(易歡)4月23日消息,在今天舉辦的“2025云網(wǎng)智聯(lián)大會(huì)”上,SNAI推委會(huì)榮譽(yù)主席、原中國(guó)電信科技委主任韋樂(lè)平分享了對(duì)智算拉遠(yuǎn)的思考。
談及大模型訓(xùn)練智算拉遠(yuǎn)的市場(chǎng)需求,韋樂(lè)平坦言,可以以網(wǎng)補(bǔ)算,提升閑散智算中心算力資源利用率!懊鎸(duì)大批分散部署、利用率很低的小規(guī)模智算中心,若能通過(guò)網(wǎng)絡(luò)互聯(lián)形成一個(gè)大型的邏輯智算池來(lái)適應(yīng)規(guī)模日益增長(zhǎng)的大模型訓(xùn)練,有望大幅提升閑散智算資源的利用率!
與此同時(shí),他指出,邁向未來(lái),跨域訓(xùn)練是必然趨勢(shì)。按照統(tǒng)計(jì),大模型參數(shù)每1-2年增長(zhǎng)10倍,而對(duì)應(yīng)的GPU芯片的算力僅增長(zhǎng)2-4倍,遠(yuǎn)低于模型規(guī)模的增速。隨著模型規(guī)模的日益擴(kuò)大,單體的算力、電力、空間資源終將受限,可能需要在園區(qū)甚至更大范圍內(nèi)由多個(gè)智算中心互聯(lián)形成一個(gè)超級(jí)邏輯智算資源池,進(jìn)行聯(lián)合訓(xùn)練才有可能支撐超大模型的訓(xùn)練。
韋樂(lè)平強(qiáng)調(diào):“至于推理與具體業(yè)務(wù)場(chǎng)景和訪問(wèn)量相關(guān),更需要跨域?qū)嵤!?/P>
針對(duì)大模型訓(xùn)練智算拉遠(yuǎn)的挑戰(zhàn),韋樂(lè)平認(rèn)為復(fù)雜的商用場(chǎng)景,勢(shì)必會(huì)面臨大量不同功能、性能的異構(gòu)GPU、規(guī)模不同的AIDC的互聯(lián)、不同業(yè)務(wù)場(chǎng)景、不同設(shè)備和不同組網(wǎng)方式、不同模型和不同參數(shù)的協(xié)同挑戰(zhàn)。
此外,還面臨一些技術(shù)挑戰(zhàn)。在韋樂(lè)平看來(lái),一是帶寬收斂問(wèn)題!盁o(wú)收斂帶寬普適性和前瞻性好,部署快,但成本太高;收斂比4-8時(shí),帶寬成本可以降至10%之內(nèi),但是只適用特定業(yè)務(wù)場(chǎng)景下的特定模型拆分方式,缺乏普適性和前瞻性!
二是功能和性能問(wèn)題。拉遠(yuǎn)后必然面對(duì)丟包、抖動(dòng)乃至中斷故障等諸多挑戰(zhàn),對(duì)ROCE網(wǎng)絡(luò)的功能和性能有不少嚴(yán)格的要求。
統(tǒng)一管理和運(yùn)維也是挑戰(zhàn)之一。韋樂(lè)平認(rèn)為,現(xiàn)有固化的組織架構(gòu)和生產(chǎn)流程不適合快速部署邏輯統(tǒng)一的異地智算中心,需要對(duì)現(xiàn)有管理運(yùn)維體系、生產(chǎn)流程、監(jiān)控管理平臺(tái)改造升級(jí)。