在2024年10月15日至17日,備受矚目的開放計算全球峰會(OCP Global Summit)在美國加州圣何塞(San Jose)隆重舉行。峰會以“從創(chuàng)新到影響力(From Ideas to Impact)”為主題,匯聚了全球7000余名基礎設施軟硬件技術和應用領域的專業(yè)人士。作為全球基礎設施和開放計算領域的標志性盛會,OCP峰會特別關注了AI基礎設施技術生態(tài)的建設,尤其是OCP基金會宣布其人工智能開放系統(tǒng)戰(zhàn)略計劃后,峰會特別設置了人工智能特別關注議程(Special Focus Tracks)。
在此次峰會上,阿里云服務器研發(fā)資深總監(jiān)文芳志與UALink聯(lián)盟主席Kurtis Bowman聯(lián)合發(fā)表了題為《UALink: Pioneering the AI Accelerator Revolution》的演講,深入探討了AI服務器Scale UP互連技術的未來發(fā)展趨勢,UALink標準的路線圖,UALink聯(lián)盟與ALink System產(chǎn)業(yè)生態(tài)的合作潛力,以及阿里云磐久AI Infra 2.0服務器的落地實踐思路。
UALink協(xié)議是由行業(yè)領先的AI芯片、服務器和CSP廠商聯(lián)合發(fā)起的一項新標準,旨在徹底改變AI服務器Scale UP互連技術生態(tài)系統(tǒng)。與專注于Scale out擴展能力的超級以太網(wǎng)聯(lián)盟(UEC)協(xié)議相比,UALink協(xié)議以其高性能內存語義訪問的原生支持、顯存共享,支持Switch組網(wǎng)模式,以及超高帶寬、超低時延能力等性能優(yōu)勢,正在迅速構建起一個AI服務器Scale UP互連技術的超級開放生態(tài)。UALink聯(lián)盟計劃于10月底正式成立并開始吸納成員加入,并在年底對外發(fā)布第一版UALink spec。
面對中國市場的挑戰(zhàn),ALink System(ALS)產(chǎn)業(yè)生態(tài)應運而生,提供具備性能競爭力和統(tǒng)一標準的互連系統(tǒng)。ALS包括ALS-D數(shù)據(jù)面和ALS-M管控面兩個主要組成部分,為AI訓練和推理場景提供豐富的能力和特性支持。ALS-D將支持UALink國際標準,形成極具性能競爭力的數(shù)據(jù)面方案,具備并行切分算法、大顯存共享、GPU超多核內存語義編程等多種顯著特點。ALS-D數(shù)據(jù)面互連采用UALink協(xié)議,除了原生支持高性能內存語義訪問、顯存共享,支持Switch組網(wǎng)模式,性能上具備超高帶寬、超低時延能力外,還增加定義了在網(wǎng)計算等特性。
遵循ALink System的規(guī)范,阿里云自主設計了面向下一代超大規(guī)模AI集群的磐久AI Infra 2.0服務器,貫穿了開放生態(tài)、高能效、高性能和高可用的設計理念。AI Infra 2.0服務器開放性地定義了AI計算節(jié)點和Scale Up/Scale Out互連系統(tǒng),可以在統(tǒng)一的硬件架構下支持業(yè)界主流AI方案,引領AI領域的“一云多芯”。
互連系統(tǒng)ALink System全面兼容國際標準UALink生態(tài),可以與行業(yè)伙伴開放共建超高性能、超大規(guī)模的Scale UP集群互連能力,一級互連64-80個節(jié)點,二級互連可達2000以上節(jié)點,提供了PB級共享顯存和TB級互連帶寬。
AI計算節(jié)點內集成阿里自研CIPU 3.0芯片,既能支持高帶寬大規(guī)模AI服務器實現(xiàn)Scale Out網(wǎng)絡擴展,又能兼顧云網(wǎng)絡彈性、安全的要求。硬件工程方面,AI Infra 2.0服務器單機柜可以支持最大80個AI計算節(jié)點,業(yè)界密度最高;在業(yè)界率先采用400V PSU,單體供電效率可達98%,整體供電效率提高2%。在散熱設計上,機柜級液冷方案可以根據(jù)實際負載動態(tài)調整CDU冷卻能力來降低能耗,單柜冷卻系統(tǒng)節(jié)能30%。最后,在運維管理上,全新的CableCartridge后維護設計,支持全盲插,零理線易運維、零誤操作,維護效率提升50%。
在可靠性方面,AI Infra 2.0服務器支持彈性節(jié)點、智能路由、高可靠供電、分布式CDU等技術,可以實時監(jiān)控、探測各種硬件故障并自愈,硬件的故障域也縮減到節(jié)點級。
阿里云在ALink System產(chǎn)業(yè)生態(tài)建設上,秉持開放合作的策略,推動互連技術領域的發(fā)展和繁榮。自今年9月ALink System產(chǎn)業(yè)生態(tài)在開放數(shù)據(jù)中心大會上正式發(fā)布以來,目前已有20多家AI芯片、互連芯片、服務器整機硬件和IP設計廠商加入,成員單位已就相關協(xié)議標準制定和實行路徑選擇展開交流。
除了積極擁抱UALink和牽頭成立ALink System產(chǎn)業(yè)生態(tài),阿里云還是OCP、CXL、UCIe和UEC等多個互連技術行業(yè)組織的創(chuàng)始成員或技術委員會成員,并用實際行動支持相關開放互連技術標準的制定和落地。通過這些合作和努力,阿里云磐久AI Infra 2.0服務器與UALink聯(lián)盟的攜手,不僅展示了阿里云在AI基礎設施領域的技術實力和創(chuàng)新能力,也體現(xiàn)了阿里云在推動開放計算和AI技術發(fā)展中的領導地位。隨著技術的不斷進步和合作的深入,我們有理由相信,阿里云將繼續(xù)引領AI技術的未來發(fā)展,為全球客戶提供更加強大、靈活和高效的AI基礎設施解決方案。
未經(jīng)數(shù)字化報網(wǎng)授權,嚴禁轉載或鏡像,違者必究。
特別提醒:如內容、圖片、視頻出現(xiàn)侵權問題,請發(fā)送郵箱:tousu_ts@sina.com。
風險提示:數(shù)字化報網(wǎng)呈現(xiàn)的所有信息僅作為學習分享,不構成投資建議,一切投資操作信息不能作為投資依據(jù)。本網(wǎng)站所報道的文章資料、圖片、數(shù)據(jù)等信息來源于互聯(lián)網(wǎng),僅供參考使用,相關侵權責任由信息來源第三方承擔。
本文地址: http:///news/67220.shtml
數(shù)字化報(數(shù)字化商業(yè)報告)是國內數(shù)字經(jīng)濟創(chuàng)新門戶網(wǎng)站,以數(shù)字技術創(chuàng)新發(fā)展為中心,融合數(shù)字經(jīng)濟和實體經(jīng)濟發(fā)展,聚焦制造業(yè)、服務業(yè)、農業(yè)等產(chǎn)業(yè)數(shù)字化轉型,致力為讀者提供最新、最權威、最全面的科技和數(shù)字領域資訊。數(shù)字化報并非新聞媒體,不提供新聞信息服務,提供商業(yè)信息服務;
商務合作:Hezuo@szhww.com
稿件投訴:help@szhww.com
Copyright ? 2013-2023 數(shù)字化報(數(shù)字化報商業(yè)報告)
數(shù)字化報并非新聞媒體,不提供新聞信息服務,提供商業(yè)信息服務
浙ICP備2023000407號數(shù)字化報網(wǎng)(杭州)信息科技有限公司 版權所有浙公網(wǎng)安備 33012702000464號