C114通信網(wǎng)  |  通信人家園

 
2024/8/16 11:04

全面呈現(xiàn)基于DPU的高性能云計算基礎(chǔ)設(shè)施建設(shè)指南!DPU白皮書下載

廠商供稿  

DPU是應(yīng)對智能計算時代算力基礎(chǔ)設(shè)施的面臨的運(yùn)行效率低、數(shù)據(jù)傳輸不可靠、系統(tǒng)可擴(kuò)展性差等重要挑戰(zhàn)的利器,被行業(yè)公認(rèn)為繼CPU、GPU之后數(shù)據(jù)中心中的第三顆主力芯片。

過去五年,DPU技術(shù)高速發(fā)展,特別是近三年,數(shù)家國際芯片業(yè)巨頭短時間內(nèi)組織研發(fā)力量并投入巨資“搶灘”式發(fā)布DPU產(chǎn)品。發(fā)展至今,DPU技術(shù)無論從性能、穩(wěn)定性,還是成本效益上,都取得了長足的進(jìn)步,達(dá)到了商用部署的成熟階段。

值得注意的是,在DPU技術(shù)走向廣泛采納與實際應(yīng)用的過程中,仍尚需應(yīng)對一系列深層次挑戰(zhàn),包括但不限于系統(tǒng)架構(gòu)的優(yōu)化、現(xiàn)有環(huán)境的兼容適配,以及運(yùn)維流程的簡化革新。這對于DPU技術(shù)能否順利融入既有IT生態(tài),實現(xiàn)效能最大化,以及降低運(yùn)營復(fù)雜度至關(guān)重要,因而構(gòu)成了其長遠(yuǎn)發(fā)展與市場滲透的關(guān)鍵環(huán)節(jié)。

聚焦于DPU在云計算領(lǐng)域的深度整合與優(yōu)化,由中科馭數(shù)聯(lián)合處理器芯片全國重點實驗室、中國計算機(jī)學(xué)會集成電路設(shè)計專業(yè)委員會共同主編的《IaaS on DPU(IoD):下一代高性能算力底座技術(shù)白皮書》在第二屆中國計算機(jī)學(xué)會芯片大會期間正式發(fā)布。

這本白皮書中將焦點轉(zhuǎn)向了DPU在云計算領(lǐng)域的應(yīng)用場景和技術(shù)落地,重點闡述了IoD技術(shù)的構(gòu)成以及與當(dāng)前主流云計算體系的融合方案,從計算、網(wǎng)絡(luò)、存儲、安全、管控等方面進(jìn)行深度分析,論證了基于DPU構(gòu)建云計算基礎(chǔ)設(shè)施服務(wù)的性能優(yōu)勢與建設(shè)路徑,為DPU在云計算的落地沉淀了“Iaas on DPU(IoD)”的技術(shù)路線,為DPU的商業(yè)化進(jìn)程謀劃了一條技術(shù)通路。更重要的是,白皮書還勾勒了一條清晰的建設(shè)路徑,指導(dǎo)企業(yè)如何逐步引入并部署IoD技術(shù),以實現(xiàn)其數(shù)據(jù)中心向高性能算力底座的平滑遷移。


IaaS on DPU,讓DPU不再為行業(yè)巨頭“專享”

IaaS on DPU是一種探索將云計算的基礎(chǔ)設(shè)施組件盡可能下沉到DPU的技術(shù)路線,目標(biāo)是節(jié)約基礎(chǔ)設(shè)施層算力開銷并提升系統(tǒng)性能。

伴隨著云計算的蓬勃發(fā)展,當(dāng)前世界上的主要算力基礎(chǔ)設(shè)施幾乎都是通過云計算技術(shù)進(jìn)行管理與調(diào)度,云計算技術(shù)已經(jīng)成為數(shù)字世界的“操作系統(tǒng)”。

為了充分發(fā)揮算力基礎(chǔ)設(shè)施的能力,云計算系統(tǒng)整體架構(gòu)也在不斷演進(jìn)。傳統(tǒng)的IaaS 平臺組件功能全部由CPU 算力承載,但是在業(yè)務(wù)驅(qū)動之下,云計算性能提升需求以及極致利用CPU 算力需求也隨之水漲船高,基于DPU構(gòu)建IaaS平臺的理念被提出與論證。

DPU作為數(shù)據(jù)中心的第三顆“主力芯片”,主要通過其專用處理器優(yōu)化數(shù)據(jù)中心的網(wǎng)絡(luò)、存儲、安全等處理性能,助力服務(wù)器運(yùn)行效率顯著提升,有效降低成本。因此,在新型數(shù)據(jù)中心建設(shè)時,圍繞DPU構(gòu)建數(shù)據(jù)中心網(wǎng)絡(luò)的基礎(chǔ)設(shè)施,在其上掛載了各種計算、存儲資源的節(jié)點,對于系統(tǒng)的資源彈性、運(yùn)行效率、性能都大有益處。

以云計算的佼佼者以亞馬遜網(wǎng)絡(luò)服務(wù)(AWS)為代表,根據(jù)披露的材料分析,自2013 年發(fā)布Nitro(DPU) 設(shè)備以來,AWS的云計算服務(wù)體系逐漸改造為基于DPU 構(gòu)建并運(yùn)行在Nitro 設(shè)備中,服務(wù)器上的CPU 算力被完全池化并以近乎100% 的原始算力性能向客戶售賣。以此為基礎(chǔ),AWS 構(gòu)建了一整套高性能、高穩(wěn)定性的云服務(wù)體系,成為全球范圍內(nèi)最大的云服務(wù)供應(yīng)商。國內(nèi)阿里云也采用類似的體系,其云服務(wù)體系與其自研的DPU 設(shè)備緊密配合,幫助阿里云取得了巨大的成功。

這正向循環(huán)促進(jìn)了DPU技術(shù)棧的快速迭代與成熟,也幫助他們發(fā)展成為云計算業(yè)務(wù)領(lǐng)域的領(lǐng)軍企業(yè)。然而,我們也需要看到,這種使用方式的變化,意味著對現(xiàn)有云計算架構(gòu)進(jìn)行一定程度的變革,才能充分發(fā)揮出DPU的優(yōu)勢。這樣“高度定制化”帶來的平臺架構(gòu)革新,自然難以簡單在業(yè)內(nèi)推廣開來。

如何探索出一條通用云計算系統(tǒng)與標(biāo)準(zhǔn)DPU產(chǎn)品結(jié)合的路徑成為業(yè)內(nèi)關(guān)注的焦點。眾多芯片廠商投身到DPU 技術(shù)領(lǐng)域,在他們的努力之下,DPU的產(chǎn)品形態(tài)定義逐漸清晰,DPU的技術(shù)標(biāo)準(zhǔn)也在不斷完善。與此同時,基礎(chǔ)設(shè)施與云計算相關(guān)產(chǎn)業(yè)參與者也正在尋求一種簡單高效的方法,將DPU的優(yōu)勢運(yùn)用到自身業(yè)務(wù)系統(tǒng)之中,讓DPU不再是行業(yè)巨頭的“專享”技術(shù),例如Redhat、VMware、Palo Alto 等公司紛紛推出相關(guān)解決方案。

這些方案背后共同的本質(zhì)思想是:將云計算的IaaS層組件從服務(wù)器側(cè)卸載后圍繞DPU 構(gòu)筑高性能算力底座,與AWS、阿里云的技術(shù)路線不謀而合。白皮書將這種思想所代表的技術(shù)路線統(tǒng)一歸納命名為“IaaS on DPU (IoD)”技術(shù)路線,簡稱IoD。

IoD技術(shù)全面賦能高性能云計算基礎(chǔ)設(shè)施建設(shè)

IoD 技術(shù)的核心思想是依托于DPU的異構(gòu)運(yùn)算能力,將云計算平臺的基礎(chǔ)設(shè)施組件盡可能下沉到DPU承載,實現(xiàn)節(jié)約CPU開銷與提升IaaS服務(wù)性能的目的。同時,基礎(chǔ)設(shè)施組件下沉到DPU之后,可以為服務(wù)器側(cè)運(yùn)行的各種業(yè)務(wù)提供一致的網(wǎng)絡(luò)、存儲與安全底座,可以更好地將虛擬機(jī)、容器與裸金屬的業(yè)務(wù)調(diào)度收斂到統(tǒng)一平臺。

通過IoD 技術(shù),可以為云計算體系提供以DPU 為核心構(gòu)造、軟硬件一體化高性能計算底座,對外提供統(tǒng)一管理、高可擴(kuò)展性、高性能、低成本的IaaS 服務(wù)。在硬件層面為“3U 一體”和“一云多芯”的異構(gòu)算力管理提供更好的解決方案。通過對網(wǎng)絡(luò)、存儲、安全、管理等負(fù)載的卸載,釋放服務(wù)器的硬件資源,實現(xiàn)性能加速,提升基礎(chǔ)設(shè)施運(yùn)行效率。此外,通過IoD 的統(tǒng)一底座技術(shù),可以為云計算系統(tǒng)提供容器、虛擬機(jī)、裸金屬業(yè)務(wù)的統(tǒng)一調(diào)度和運(yùn)維管理能力,提升運(yùn)維管理效率。

賦能通用算力,為Hypervisor卸載提供最佳支撐:在現(xiàn)代云計算環(huán)境中,虛擬化技術(shù)扮演著至關(guān)重要的角色。。其中,計算系統(tǒng)虛擬化的核心通常是基于KVM-QEMU 架構(gòu)的Hypervisor 系統(tǒng)。IoD 技術(shù)能夠?qū)ypervisor 的部分功能卸載到DPU上,采用的方式是在服務(wù)器側(cè)運(yùn)行一組輕量級組件。一方面響應(yīng)DPU 的業(yè)務(wù)事件,輔助完成與KVM、LXC 等系統(tǒng)交互,實現(xiàn)云計算業(yè)務(wù)調(diào)度;另一方面輔助將服務(wù)器側(cè)文件系統(tǒng)透傳給DPU,幫助下沉的云管系統(tǒng)完成對服務(wù)器側(cè)的業(yè)務(wù)監(jiān)控。通過這種方式,可以滿足云業(yè)務(wù)平臺下沉DPU 的功能需求。此方法的優(yōu)勢是可以用最小的改造成本完成業(yè)務(wù)卸載,最終目標(biāo)是實現(xiàn)主機(jī)CPU 資源占用接近” 零” 的理想狀態(tài)。

賦能智能算力,實現(xiàn)性能與靈活性兼?zhèn)涞臒o損網(wǎng)絡(luò):AI 應(yīng)用對網(wǎng)絡(luò)的需求極為嚴(yán)苛,當(dāng)前主要通過無損網(wǎng)絡(luò)(IB、RoCE)承載RDMA應(yīng)用,尤其是通過GDS、GDR 技術(shù)實現(xiàn)GPU 之間以及GPU 與后端存儲之前的高效互聯(lián)。在無損網(wǎng)絡(luò)中,DPU 擔(dān)任了至關(guān)重要的角色,作為網(wǎng)絡(luò)接入點設(shè)備,DPU 實現(xiàn)了RDMA 協(xié)議棧與擁塞處理技術(shù)的硬件卸載,大幅提升了網(wǎng)絡(luò)性能。由于擁塞處理的復(fù)雜性,現(xiàn)在業(yè)界在重點探索軟件定義擁塞控制的新型解決方案,IoD 技術(shù)可以在DPU 側(cè)通過軟件定義的方式實現(xiàn)網(wǎng)絡(luò)擁塞狀態(tài)的監(jiān)控與擁塞處理控制,將網(wǎng)絡(luò)處理與上層業(yè)務(wù)解耦,為整個擁塞處理機(jī)制提供更好的靈活性。

賦能云計算網(wǎng)絡(luò),助力算力連通、算力開放:隨著數(shù)據(jù)量的激增和計算需求的多樣化,網(wǎng)絡(luò)性能成為了制約高性能云計算發(fā)展的關(guān)鍵因素之一。網(wǎng)絡(luò)卸載技術(shù)利用DPU的計算能力,將數(shù)據(jù)包的接收、解析、加密/解密、壓縮/解壓縮、流量控制、負(fù)載均衡等網(wǎng)絡(luò)處理任務(wù)從CPU 上卸載下來。這樣一來,CPU就可以專注于運(yùn)行應(yīng)用程序和執(zhí)行更為復(fù)雜的計算任務(wù),而不再需要頻繁地處理網(wǎng)絡(luò)數(shù)據(jù)包,從而提高了CPU 的使用效率和系統(tǒng)的整體性能。網(wǎng)絡(luò)卸載通過優(yōu)化網(wǎng)絡(luò)數(shù)據(jù)處理流程,不僅提高了系統(tǒng)的性能和效率,還增強(qiáng)了安全性,降低了成本,提升了資源分配的靈活性,對于需要處理大量網(wǎng)絡(luò)數(shù)據(jù)、實時通信和高并發(fā)訪問的系統(tǒng)尤為重要,是高性能云計算網(wǎng)絡(luò)架構(gòu)中優(yōu)化性能和資源利用的關(guān)鍵技術(shù)之一。

賦能云計算存儲,提升存算分離架構(gòu)下的處理性能:在復(fù)雜的云計算場景中,DPU 在存儲方向上扮演關(guān)鍵角色。DPU 通過存儲加速、數(shù)據(jù)處理、數(shù)據(jù)安全和智能存儲管理等功能,優(yōu)化存儲系統(tǒng)性能和效率,適用于不同云計算業(yè)務(wù)需求。結(jié)合云計算業(yè)務(wù),DPU 可提供高性能存儲加速,滿足對速度和響應(yīng)時間要求高的應(yīng)用;其數(shù)據(jù)處理功能減輕主機(jī)CPU 負(fù)擔(dān),提高整體計算效率;其數(shù)據(jù)安全功能保護(hù)云端數(shù)據(jù)免受攻擊,確保數(shù)據(jù)隱私和完整性;其智能存儲管理功能優(yōu)化資源利用率,提高云端存儲系統(tǒng)的可靠性和可擴(kuò)展性。通過與網(wǎng)絡(luò)存儲設(shè)備集成,DPU 實現(xiàn)高效數(shù)據(jù)傳輸和存儲管理,為云計算業(yè)務(wù)提供高性能、安全可靠的存儲解決方案,滿足多樣化的存儲需求。

賦能云計算安全,構(gòu)建“零信任”網(wǎng)絡(luò):作為下一代云安全的基礎(chǔ)構(gòu)成,零信任安全的應(yīng)用離不開DPU 基礎(chǔ)設(shè)施,借助DPU 的各種硬件加速引擎和網(wǎng)絡(luò)可編程引擎,從底層硬件信任根開始構(gòu)建逐層的安全應(yīng)用功能,憑借與業(yè)務(wù)和安全應(yīng)用的深度融合,與云控制平臺的分布式安全策略聯(lián)動,最終實現(xiàn)面向云計算場景的零信任網(wǎng)絡(luò)安全體系。DPU 零信任安全架構(gòu),可以促進(jìn)零信任安全技術(shù)和應(yīng)用的快速發(fā)展。

賦能云計算服務(wù)治理,有效降低服務(wù)治理業(yè)務(wù)的處理時延:在IoD 技術(shù)體系下,可以將原有體系中用來做服務(wù)治理的Sidecar容器下沉到DPU,同時采用“集中式”網(wǎng)關(guān)的模式來完成服務(wù),這一思想也契合了當(dāng)前服務(wù)治理的技術(shù)發(fā)展方向,如Cilium Service Mesh 與Istio Ambient 等都采用了類似的方案。同時結(jié)合主機(jī)側(cè)協(xié)議棧PRELOAD 技術(shù)與DPU 優(yōu)化的Data Plane 設(shè)計,可以有效降低服務(wù)治理業(yè)務(wù)的處理時延。

未來展望

當(dāng)前,云計算產(chǎn)業(yè)正從單純的軟件主導(dǎo)向著軟硬件融合的新模式演進(jìn),傳統(tǒng)云服務(wù)在依賴DPU、GPU 等高性能硬件重構(gòu)技術(shù)體系的同時,也將對產(chǎn)業(yè)內(nèi)各個角色的職責(zé)和交互模式進(jìn)行重新定義:

其一,硬件制造和芯片設(shè)計廠商將成為云基礎(chǔ)資源的重要提供者。除了傳統(tǒng)通用服務(wù)器供應(yīng)商外,GPU 和智算服務(wù)器廠商將為MaaS 等新型云計算服務(wù)提供高性能算力基礎(chǔ),而DPU 廠商則將圍繞異構(gòu)算力資源和高性能網(wǎng)絡(luò)充分釋放資源潛力、打造3U一體的云計算基礎(chǔ)設(shè)施。

其二,云服務(wù)和軟件提供商將重構(gòu)云計算軟件以適應(yīng)新型基礎(chǔ)架構(gòu)。云計算操作系統(tǒng)和應(yīng)用將根據(jù)全新的基礎(chǔ)架構(gòu)進(jìn)行設(shè)計,以充分利用GPU 的并行處理和DPU 的任務(wù)卸載能力。與此同時,針對新型基礎(chǔ)架構(gòu)的開發(fā)框架和服務(wù)也將融入云平臺當(dāng)中,成為云操作系統(tǒng)不可或缺的一部分。

其三,芯片、服務(wù)器、云服務(wù)商等多方聯(lián)合方案將成為主流。多芯片、多架構(gòu)組成的云計算基礎(chǔ)設(shè)施將使單一廠商打造軟硬件融合解決方案的難度呈指數(shù)性增長,而這將加速產(chǎn)業(yè)內(nèi)各方走向各抒所長、聯(lián)合打造方案的道路。IoD 技術(shù)正是多方聯(lián)合打造的新型技術(shù)方案的典型代表。

給作者點贊
0 VS 0
寫得不太好

免責(zé)聲明:本文僅代表作者個人觀點,與C114通信網(wǎng)無關(guān)。其原創(chuàng)性以及文中陳述文字和內(nèi)容未經(jīng)本站證實,對本文以及其中全部或者部分內(nèi)容、文字的真實性、完整性、及時性本站不作任何保證或承諾,請讀者僅作參考,并請自行核實相關(guān)內(nèi)容。

熱門文章
    最新視頻
    為您推薦

      C114簡介 | 聯(lián)系我們 | 網(wǎng)站地圖 | 手機(jī)版

      Copyright©1999-2024 c114 All Rights Reserved | 滬ICP備12002291號

      C114 通信網(wǎng) 版權(quán)所有 舉報電話:021-54451141