飛象網(wǎng)訊(魏德齡/文)近日,MLCommons公布了MLPerf Training v1.0新一輪比賽結(jié)果,結(jié)果顯示英偉達合伙伙伴所提供的各種搭載NVIDIA技術(shù)的系統(tǒng)再次取得了出色的成績。而隨著AI領(lǐng)域能力的進一步提升,也為開拓更多領(lǐng)域的應(yīng)用提供了契機,并助力超級計算無處不在。
全球最快AI模型訓練速度
MLPerf 是由學術(shù)界、研究實驗室和業(yè)界人士組成的人工智慧領(lǐng)袖聯(lián)盟,基于“打造公平、實用基準”的使命,為硬體、軟體和服務(wù)的訓練與推斷效能提供中立評估,且全部在預(yù)定條件下執(zhí)行。該基準測試基于當今最常用的AI工作負載和場景,涵蓋計算機視覺、自然語言處理、推薦系統(tǒng)、強化學習等。
此前,英偉達生態(tài)系統(tǒng)一直在測試中表現(xiàn)出不俗的成績,例如在2020年7月底公布的第三輪MLPerf榜單中英偉達A100 Tensor Core GPU 在全部八項基準測試中展現(xiàn)了最快性能。在實現(xiàn)總體最快的大規(guī)模解決方案方面,利用HDR InfiniBand實現(xiàn)多個DGX A100系統(tǒng)互聯(lián)的服務(wù)器集群DGX SuperPOD系統(tǒng)也同樣創(chuàng)造了業(yè)內(nèi)最優(yōu)性能。
本次MLCommons的新一輪賽事,是英偉達生態(tài)系統(tǒng)第四次參加MLPerf訓練測試。在芯片對比中,英偉達及其合作伙伴在最新商用解決方案測試的所有八項基準測試中都創(chuàng)造了紀錄。
測試中,七家公司對至少十幾款市售系統(tǒng)進行了測試,由英偉達AI助力的系統(tǒng)超過了75%,除英偉達外,還包括了戴爾、富士通、技嘉、浪潮、聯(lián)想、寧暢、超微等。僅有Google、Graphcore、Habana、英特爾、鵬程科技使用其它系統(tǒng)。其中英偉達及合作伙伴或采用了NVIDIA A100 GPU,或計劃為在線實例、服務(wù)器和PCIe卡采用NVIDIA A100 GPU,以及包括近40款NVIDIA認證系統(tǒng)。
實現(xiàn)這一成績背后的原因在于,盡管A100 Tensor Core GPU在去年已經(jīng)雄霸MLPerf測試,英偉達工程師又使其在GPU、系統(tǒng)、網(wǎng)絡(luò)和AI軟件方面繼續(xù)實現(xiàn)了進步。例如,通過全新的使用CUDA Graphs啟動完整神經(jīng)網(wǎng)絡(luò)模型的方法,能夠解決過去測試中的CPU瓶頸;另在大規(guī)模測試中使用的是NVIDIA SHARP,整合網(wǎng)絡(luò)交換機內(nèi)的多項通信工作,從而減少網(wǎng)絡(luò)流量和等待CPU的時間。
助力超級計算無處不在
相較上一輪測試成績,英偉達將性能整體提升了2.1倍,另通過多次測試結(jié)果綜合來看,英偉達在兩年半的時間內(nèi)將性能提高了多達6.5倍。性能的快速增長,也為客戶在拓展人工智能的全新落地領(lǐng)域提供了更多可能。
此前,在AI應(yīng)用案例中,棋類的深度學習、圖形類別識別、物體重量辨識、物體高度辨識、自然語言處理等已經(jīng)被廣泛應(yīng)用,測試項中的MiniGo、Mask R-CNN、SSD等也呼應(yīng)了上述的應(yīng)用需求。如今在MLPerf測試中加入的RNN-T、3D-UNet測試,也預(yù)示著行業(yè)對于如語音辨識、生物醫(yī)學圖像方面的全新需求。英偉達及合伙伙伴在八項測試中的創(chuàng)紀錄表現(xiàn),也意味著在實際的人工智能應(yīng)用中,能夠帶來更高的效率。
目前,德國癌癥研究中心就與英偉達展開合作,將3D-UNet等創(chuàng)新技術(shù)引入醫(yī)療市場,來實現(xiàn)生物醫(yī)學圖像上的功能。這一合作也證明了MLPerf的測試結(jié)果能夠給IT機構(gòu)和開發(fā)者以極大的參考,來找到合適的解決方案,以加速特定項目和應(yīng)用。本次測試中,英偉達AI在3D-UNet上的性能表現(xiàn)甚至是第二名的6倍之多。
人工智能的訓練無疑是一項超級計算級別的挑戰(zhàn),而英偉達正在讓這一能力變得無處不在。根據(jù)全球前500的超級計算機榜單顯示,基于NVIDIA DGX SuperPOD的Selene是全球最快的商用AI超級計算機。而榜單上的其他十幾臺系統(tǒng)也均基于NVIDIA DGX SuperPOD架構(gòu)。
此外,特斯拉構(gòu)建的來獲得自動駕駛模型的AI超級計算機系統(tǒng),也選擇英偉達的硬件架構(gòu)作為自動駕駛與輔助駕駛深度學習訓練超級電腦AUTOMOTIVE的關(guān)鍵元件。該系統(tǒng)共具備720個節(jié)點,每個節(jié)點擁有8塊NVIDIA A100 Tensor Core GPU,共計5760塊。
不久前,微軟也宣布由NVIDIA A100 Tensor Core GPU驅(qū)動的Azure ND A100 v4云GPU實例全面上市。這些虛擬機(VM)針對的是擁有高性能和高要求工作負載的客戶,如人工智能(AI)和機器學習(ML)工作負載。
甚至,英偉達還和美國國家能源研究科學計算中心打造了世界上最快的AI超級計算機,這款名為Perlmutter的超級計算機擁有6144個NVIDIA A100 Tensor Core GPU,從而可以負責拼接有史以來最大的可見宇宙3D地圖以及其他項目。以往,研究人員準備一年的星系數(shù)據(jù)發(fā)布需要幾周或幾個月時間,而通過在英偉達助力下的Perlmutter僅需要幾天就能完成任務(wù)。