端側(cè)AI的發(fā)展將生成式AI推向縱深
端側(cè)AI是指在終端設(shè)備上進(jìn)行的輕型AI模型應(yīng)用。由于整個(gè)AI的過(guò)程都在設(shè)備端,不需要連接云端,具有速度快、功耗小、成本低、私密數(shù)據(jù)等隱私安全有保障等諸多優(yōu)點(diǎn)。
對(duì)于AI大模型而言,雖然訓(xùn)練單個(gè)模型會(huì)消耗大量資源,但模型每年往往僅需訓(xùn)練幾次,而推理則是隨著日活用戶(hù)數(shù)量及其使用頻率的增加而增加,規(guī)模遠(yuǎn)高于訓(xùn)練,導(dǎo)致在云端推理成本極高,生成式AI規(guī);卣箤㈦y以持續(xù)。要實(shí)現(xiàn)AI的規(guī)模化擴(kuò)展并發(fā)揮其最大潛能,需要根據(jù)不同場(chǎng)景和需求分配AI計(jì)算在云和端的工作負(fù)載。基于成本、能耗、可靠性和時(shí)延、隱私和安全、個(gè)性化服務(wù)等考慮,終端側(cè)AI能力是賦能混合AI并讓生成式AI實(shí)現(xiàn)規(guī)模化擴(kuò)展的關(guān)鍵。
1. 相較云側(cè)AI,端側(cè)AI的優(yōu)勢(shì)凸顯
端側(cè)AI具有低延時(shí)、高可靠性、低成本、更利于保護(hù)隱私和數(shù)據(jù)安全等顯著優(yōu)勢(shì)。
當(dāng)生成式AI調(diào)用對(duì)于云的需求達(dá)到高峰期時(shí),會(huì)產(chǎn)生大量排隊(duì)等待和高時(shí)延,甚至可能出現(xiàn)拒絕服務(wù)的情況。端側(cè)AI由于數(shù)據(jù)的存儲(chǔ)計(jì)算在本地,響應(yīng)速度更快,且不會(huì)出現(xiàn)與云端鏈接時(shí)網(wǎng)絡(luò)不穩(wěn)定、甚至斷線(xiàn)的情況,可靠性高。
通過(guò)終端獨(dú)立運(yùn)行以及云-端協(xié)同承擔(dān)計(jì)算負(fù)載,可大大降低云端算力需求及能耗成本。將一些處理從云端轉(zhuǎn)移到邊緣終端可減輕云端AI基礎(chǔ)設(shè)施的壓力并減少開(kāi)支,促進(jìn)AI的應(yīng)用和推廣。
較云側(cè)AI,端側(cè)AI更有助于保護(hù)用戶(hù)隱私和數(shù)據(jù)安全。端側(cè)AI數(shù)據(jù)的存儲(chǔ)計(jì)算等都在本地,避免了傳到云端可能帶來(lái)的數(shù)據(jù)安全問(wèn)題,對(duì)于個(gè)人,更有利于保障個(gè)人隱私,對(duì)于企業(yè),更有利于保護(hù)企業(yè)的數(shù)據(jù)安全。
2. 端側(cè)AI的發(fā)展推動(dòng)AI端云協(xié)同
端側(cè)AI的發(fā)展離不開(kāi)AI模型技術(shù)和終端技術(shù)發(fā)展。生成式AI模型通過(guò)多種“瘦身”方式正在變小,同時(shí)終端側(cè)硬件處理能力持續(xù)提升,端側(cè)AI落地的軟硬件基礎(chǔ)逐步夯實(shí)。在降本與安全的雙重考量下,AI部署在逐漸從云側(cè)走向端側(cè),終端和云端協(xié)同工作分流AI計(jì)算工作負(fù)載的端云混合模式或?qū)⒊蔀橹髁鞑渴鸱桨浮I大模型的壓縮和端側(cè)推理框架的輕量化,加上邊緣算力的躍升,實(shí)現(xiàn)大模型在邊緣-端側(cè)部署、加速AI與智能終端融合的核心技術(shù)條件目前已基本就緒。
隨著模型的小型化和終端硬件技術(shù)的突破,未來(lái)每臺(tái)手機(jī)、PC都將是AI終端,這將帶來(lái)全新的用戶(hù)體驗(yàn)。
手機(jī)作為使用頻率最高,使用時(shí)間最長(zhǎng)的電子產(chǎn)品,已經(jīng)成為鏈接智能汽車(chē)、PC、耳機(jī)以及其他智能終端的中樞,植入AI大模型后能成為真正的個(gè)人智能助理。 對(duì)于手機(jī)用戶(hù)來(lái)說(shuō),本地?cái)?shù)據(jù)更具安全和隱私優(yōu)勢(shì),對(duì)于智能助理的訓(xùn)練更加精確。手機(jī)中的AI大模型,可以打破各APP之間的壁壘,實(shí)現(xiàn)跨APP相互調(diào)用,使得AI手機(jī)具有人格化、記憶、感知和管理能力,能夠觸發(fā)主動(dòng)服務(wù)。
AI手機(jī)有望成為個(gè)人智能助理,為手機(jī)行業(yè)帶來(lái)更多創(chuàng)新。目前已經(jīng)上市的一些AI手機(jī)如谷歌Pixel 8及Pixel 8 Pro,具有智能助手、生成式AI圖片與音頻編輯等功能;三星Galaxy S24,有實(shí)時(shí)通話(huà)語(yǔ)音翻譯、AI搜索等功能;德國(guó)電信&高通&Brain.AI的T Phone,摒棄了傳統(tǒng)的App界面,完全通過(guò)AI聊天來(lái)滿(mǎn)足各種使用需求;小米14/14Pro搭載相關(guān)大模型,無(wú)需聯(lián)網(wǎng),可本地端實(shí)現(xiàn)AI畫(huà)圖、智能問(wèn)答、AI寫(xiě)作等。
AI PC在人機(jī)交互方面有天然優(yōu)勢(shì),擁有全模態(tài)的交互方式.能承載生活?yuàn)蕵?lè)、工作、學(xué)習(xí)等多個(gè)場(chǎng)景,擁有大容量的本地安全存儲(chǔ),適合大模型本地部署以及隱私保護(hù),并且,PC能實(shí)現(xiàn)強(qiáng)算力與便攜性的平衡,是大模型實(shí)時(shí)推理和高性能計(jì)算的更為理想的平臺(tái)。根據(jù)IDC與聯(lián)想聯(lián)合發(fā)布的白皮書(shū)《AIPC產(chǎn)業(yè)(中國(guó))白皮書(shū)》預(yù)測(cè),AIPC將成為終端、邊緣計(jì)算和云技術(shù)的顛覆性混合體,有望在“AI+”終端中最先爆發(fā)。
資料來(lái)源:《AIPC產(chǎn)業(yè)(中國(guó))白皮書(shū)》
23年10月, “英特爾on技術(shù)創(chuàng)新大會(huì)2023”官宣將在今年正式發(fā)布面向下一代的AI PC的英特爾酷睿Ultra處理器Meteor Lake ,以加速“AI PC”時(shí)代的到來(lái)。 此外,英特爾提出“AI PC加速計(jì)劃”,宣布將為軟件合作伙伴提供工程軟件和資源,以在2025年前實(shí)現(xiàn)為超過(guò)1億臺(tái)PC實(shí)現(xiàn)人工智能特性。
端側(cè)AI的技術(shù)日益成熟
1. 端側(cè)AI模型發(fā)展迅速,性能水平直追云側(cè)
在模型側(cè),輕量化移動(dòng)模型發(fā)展迅速,軟件層面已實(shí)現(xiàn)對(duì)大模型進(jìn)行量化、剪枝、蒸餾,輕量化、小型化以適應(yīng)移動(dòng)端場(chǎng)景,結(jié)合稀疏計(jì)算等方式降低對(duì)邊緣端側(cè)算力需求。Stable Diffusion等參數(shù)超過(guò)10億的模型已能夠在手機(jī)上運(yùn)行,且性能和精確度達(dá)到與云端處理類(lèi)似的水平,未來(lái)?yè)碛?00億或更多參數(shù)的生成式AI模型將能夠在終端上運(yùn)行。如谷歌2023年起相繼發(fā)布GeminiNano(1.8B/3.25B)、Gemma(2B/7B)等輕量化模型;Meta推出Llama2、MistralAI推出Mixtral8x-7B等開(kāi)源模型,引領(lǐng)移動(dòng)模型輕量化發(fā)展。
2. 終端硬件突飛猛進(jìn),已具搭載大模型能力
端側(cè)PC/Phone的AI能力主要在于搭載了相關(guān)的AI芯片。近年來(lái)端側(cè)AI芯片算力性能快速提升,為端側(cè)大模型落地做好準(zhǔn)備。目前,高通、聯(lián)發(fā)科、英特爾、AMD等龍頭芯片廠商都相繼推出了能跑十億甚至百億量級(jí)大模型的終端AI芯片。
2023年10月,高通發(fā)布了兩款支持端側(cè)運(yùn)行百億大模型的芯片——面向PC的驍龍XElite和面向手機(jī)的驍龍8Gen3。高通驍龍XElite支持在終端本地運(yùn)行130億參數(shù)大模型,能以30Tokens/s的速度在終端運(yùn)行70億參數(shù)的Llama-2模型。高通驍龍8Gen3支持在終端運(yùn)行100億大模型。運(yùn)行70億參數(shù)大模型時(shí),每秒可生成20個(gè)token,運(yùn)行StableDiffusion時(shí),創(chuàng)作圖像只需0.6秒。
英特爾第14代酷睿Ultra 其搭載的GPU、NPU、CPU都可以承載AI算力,支持端側(cè)無(wú)網(wǎng)運(yùn)行Llama2-7B。AMD推出內(nèi)置RyzenAI引擎的銳龍8040系列系列處理器,相較前一代7040,算力大幅提升的同時(shí),在Llama2和視覺(jué)模型方面,性能提升多達(dá)40%。
端側(cè)AI的發(fā)展對(duì)電信運(yùn)營(yíng)商的影響深遠(yuǎn)
隨著輕量模型性能不斷強(qiáng)大、端側(cè)芯片算力不斷提升,大模型部署于本地終端成為大勢(shì)所趨。IDC預(yù)測(cè),2024年AI手機(jī)出貨量將達(dá)到1.7億部,占全球智能手機(jī)出貨量的15%。英特爾預(yù)計(jì)全球今年將交付4000萬(wàn)臺(tái)AI PC,明年將交付6000萬(wàn)臺(tái),預(yù)估2025年底AI PC在全球PC市場(chǎng)中占比將超過(guò)20%; AI賦能有望帶來(lái)手機(jī)、PC、手表等智能可穿戴設(shè)備、平板、XR等各類(lèi)數(shù)碼產(chǎn)品的換機(jī)熱潮,而更廣泛AIoT(AIoT:人工智能物聯(lián)網(wǎng)=AI人工智能+IoT物聯(lián)網(wǎng))智能也有望在大模型加持下迎來(lái)全面升級(jí)。終端技術(shù)和產(chǎn)品的變革,將會(huì)對(duì)運(yùn)營(yíng)商帶來(lái)顯著的影響。
流量格局的改變。原本集中在云端的AI計(jì)算需求將部分轉(zhuǎn)移到終端,導(dǎo)致云流量下降,終端流量上升。由于流量結(jié)構(gòu)的變化,運(yùn)營(yíng)商需要適應(yīng)新的流量格局,調(diào)整網(wǎng)絡(luò)資源配置,優(yōu)化流量調(diào)度策略,降低網(wǎng)絡(luò)延遲,提升網(wǎng)絡(luò)QoS,以提升網(wǎng)絡(luò)性能和用戶(hù)體驗(yàn)。
運(yùn)營(yíng)成本的下降。一方面,算力上云端算力被邊緣計(jì)算分流,這將減少云端算力的壓力和能源功耗,能夠降低運(yùn)營(yíng)的成本。另一方面,從運(yùn)維的角度看,端側(cè)AI可以幫助電信運(yùn)營(yíng)商提升自動(dòng)化網(wǎng)絡(luò)管理和維護(hù)任務(wù)能力,減少人工干預(yù),也將降低運(yùn)營(yíng)的成本。
云側(cè)需求的下降。端側(cè)AI的普及可能會(huì)降低云端的價(jià)值,使云端更多成為一個(gè)簡(jiǎn)單的存儲(chǔ)和計(jì)算資源提供者。一些云業(yè)務(wù)產(chǎn)品將會(huì)受到影響,如云電腦、云主機(jī)、云游戲等,運(yùn)營(yíng)商在技術(shù)策略上需要提升云產(chǎn)品的AI能力,使得產(chǎn)品與AI PC/AI PHONE的能力相當(dāng)或領(lǐng)先。在市場(chǎng)策略上要降低云產(chǎn)品的資費(fèi),提升云產(chǎn)品的競(jìng)爭(zhēng)力。
端云協(xié)同催生新業(yè)務(wù)模式。本地AI應(yīng)用將快速發(fā)展,例如本地語(yǔ)音識(shí)別、圖像識(shí)別、AR/VR等,運(yùn)營(yíng)商可以抓住機(jī)遇開(kāi)發(fā)新的AI應(yīng)用和服務(wù)。如:提供本地AI模型的訓(xùn)練和部署服務(wù)、開(kāi)發(fā)基于本地AI的垂直行業(yè)應(yīng)用、提供本地AI安全和隱私保護(hù)解決方案等。端側(cè)AI可以幫助電信運(yùn)營(yíng)商開(kāi)發(fā)新的邊緣服務(wù),例如AR/VR、物聯(lián)網(wǎng)、自動(dòng)駕駛等,創(chuàng)造新的收入來(lái)源。
推動(dòng)5G網(wǎng)絡(luò)建設(shè)。大模型本地部署需要更強(qiáng)大的網(wǎng)絡(luò)連接,如AIoT的發(fā)展,將帶動(dòng)高帶寬低時(shí)延廣連接的5G網(wǎng)絡(luò)的發(fā)展。電信運(yùn)營(yíng)商可以加快5G、5G-A網(wǎng)絡(luò)的建設(shè),為大模型本地部署提供良好的網(wǎng)絡(luò)基礎(chǔ)。
大模型本地部署于終端對(duì)運(yùn)營(yíng)商是一次機(jī)遇和挑戰(zhàn)并存的變革。需要加強(qiáng)對(duì)端側(cè)AI技術(shù)的研發(fā)投入,提升自身技術(shù)實(shí)力。與終端設(shè)備廠商、軟件廠商等合作伙伴展開(kāi)合作,構(gòu)建端側(cè)AI的生態(tài)體系。積極探索端側(cè)在各領(lǐng)域的應(yīng)用場(chǎng)景,開(kāi)發(fā)創(chuàng)新型AI應(yīng)用和服務(wù)。制定合理的端側(cè)AI商業(yè)模式。
本文作者
劉敬東
戰(zhàn)略發(fā)展研究所
二級(jí)分析師
碩士,就職于中國(guó)電信研究院,長(zhǎng)期從事電信新產(chǎn)品、客服服務(wù)、數(shù)字化轉(zhuǎn)型等領(lǐng)域的研究。