2024/9/26 16:11

Arm計(jì)算平臺(tái)加持，全新Llama3.2 LLM實(shí)現(xiàn)AI推理的全面加速和擴(kuò)展

C114通信網(wǎng)

人工智能 (AI) 的迅猛發(fā)展意味著大語(yǔ)言模型 (LLM) 的新版本不斷推陳出新。要充分發(fā)揮 AI 的潛力并抓住其帶來(lái)的機(jī)遇，需要實(shí)現(xiàn) LLM 從云端到邊緣側(cè)的廣泛部署，而這也伴隨著對(duì)計(jì)算和能源需求的大幅增長(zhǎng)。整個(gè)生態(tài)系統(tǒng)正攜手尋找應(yīng)對(duì)這一挑戰(zhàn)的解決方案，不斷推出新的更加高效的開(kāi)源 LLM，以便大規(guī)模實(shí)現(xiàn)各種 AI 推理工作負(fù)載，加快為用戶(hù)帶來(lái)全新、快速的 AI 體驗(yàn)。

為此，Arm與Meta 展開(kāi)緊密合作，在 Arm CPU 上啟用新的{HYPERLINK "https://ai.meta.com/blog/llama-3-2-connect-2024-vision-edge-mobile-devices/"}，集成開(kāi)源創(chuàng)新與 Arm 計(jì)算平臺(tái)的優(yōu)勢(shì)，顯著推進(jìn)了解決AI挑戰(zhàn)的進(jìn)程。得益于Arm 的持續(xù)投資及與新型LLM 的合作， Arm CPU運(yùn)行 AI 的優(yōu)勢(shì)在生態(tài)系統(tǒng)中脫穎而出，使Arm成為 AI 推理開(kāi)發(fā)者的首選平臺(tái)。

加速云到邊緣側(cè)的 AI 性能

小型 LLM（如 Llama 3.2 1B 和 3B）能夠支持基于文本的基礎(chǔ)生成式 AI 工作負(fù)載，對(duì)于大規(guī)模 AI 推理的實(shí)現(xiàn)至關(guān)重要。通過(guò) Arm CPU 優(yōu)化內(nèi)核在 Arm 技術(shù)驅(qū)動(dòng)的移動(dòng)設(shè)備上運(yùn)行新的 Llama 3.2 3B LLM，可讓提示詞處理速度提高五倍，詞元 (token) 生成速度提高三倍，在生成階段實(shí)現(xiàn)每秒 19.92 個(gè)詞元。這將直接減少了在設(shè)備上處理 AI 工作負(fù)載的延遲，大大提升了用戶(hù)整體體驗(yàn)。此外，當(dāng)邊緣側(cè)能處理的 AI 工作負(fù)載越多，往返云端傳輸數(shù)據(jù)所節(jié)省的電量就越多，進(jìn)而節(jié)省了能源和成本。

除了在邊緣側(cè)運(yùn)行小型模型，Arm CPU同樣支持在云端運(yùn)行更大的模型（如 Llama 3.2 11B 和 90B）。11B 和 90B 的模型非常適合云端基于 CPU 的推理工作負(fù)載，可生成文本和圖像，其中，在 Arm Neoverse V2 上的測(cè)試結(jié)果展現(xiàn)出了更大的性能提升。在基于 Arm 架構(gòu)的 AWS Graviton4 上運(yùn)行 11B 的圖像和文本模型，可以在生成階段實(shí)現(xiàn)每秒 29.3 個(gè)詞元的表現(xiàn)，遠(yuǎn)遠(yuǎn)超出了人類(lèi)大約每秒閱讀五個(gè)詞元的速度。

AI 將通過(guò)開(kāi)源創(chuàng)新和生態(tài)系統(tǒng)協(xié)作迅速擴(kuò)展

能公開(kāi)獲取新的 LLMs（如Llama 3.2）至關(guān)重要。開(kāi)源創(chuàng)新正以迅猛速度發(fā)展，在之前的版本中，開(kāi)源社區(qū)在不到 24 小時(shí)的時(shí)間內(nèi)便能在 Arm 上部署并運(yùn)行新的 LLM。

Arm將通過(guò) Arm Kleidi 進(jìn)一步支持軟件社區(qū)，讓整個(gè) AI 技術(shù)棧能夠充分發(fā)揮這一優(yōu)化的 CPU 性能。Kleidi 可在任何 AI 框架上解鎖 Arm Cortex 和 Neoverse CPU 的 AI 功能和性能，無(wú)需應(yīng)用程序開(kāi)發(fā)者進(jìn)行額外的集成工作。

通過(guò)最近的{HYPERLINK "https://newsroom.arm.com/news/pytorch-kleidi-integrations-cloud-to-edge" \h}，Arm正在為基于 Arm CPU的開(kāi)發(fā)者提供從云端到邊緣側(cè)的無(wú)縫 AI 性能。得益于Kleidi 與 PyTorch 的集成，在基于 Arm 架構(gòu)的 AWS Graviton 處理器上運(yùn)行 Llama 3 LLM 的詞元首次響應(yīng)時(shí)間加快了 2.5 倍。

同時(shí)，在端側(cè)，與參考實(shí)現(xiàn)相比，在 KleidiAI 庫(kù)的加持下，使用 llama.cpp庫(kù)在新的 Arm Cortex-X925 CPU 上運(yùn)行 Llama 3 的詞元首次響應(yīng)時(shí)間加快了 190%。

構(gòu)建 AI 的未來(lái)

Arm 與 Meta 的合作成為了行業(yè)合作的新標(biāo)桿，匯聚了 Arm 計(jì)算平臺(tái)的靈活性、普及性和 AI 功能，以及 Meta 等行業(yè)巨頭的技術(shù)專(zhuān)長(zhǎng)，共同解鎖AI 廣泛應(yīng)用的新機(jī)遇。無(wú)論是利用端側(cè) LLM 滿(mǎn)足用戶(hù)的個(gè)性化需求，如根據(jù)用戶(hù)所處的位置、日程和偏好來(lái)執(zhí)行任務(wù)，還是通過(guò)企業(yè)級(jí)應(yīng)用來(lái)優(yōu)化工作效率，讓用戶(hù)能夠更專(zhuān)注于戰(zhàn)略性任務(wù)，Arm 技術(shù)的集成都為未來(lái)奠定了基礎(chǔ)。未來(lái)，設(shè)備不再只是命令和控制工具，更是能在提升用戶(hù)整體體驗(yàn)方面扮演積極的作用。

在 Arm CPU 上運(yùn)行 Meta 最新 Llama 3.2 版本，其AI 性能實(shí)現(xiàn)了顯著提升。這類(lèi)開(kāi)放式合作是實(shí)現(xiàn)無(wú)處不在的 AI 創(chuàng)新、促進(jìn) AI 可持續(xù)發(fā)展的最佳途徑。通過(guò)新的 LLM、開(kāi)源社區(qū)和 Arm 的計(jì)算平臺(tái)，Arm 正在構(gòu)建 AI 的未來(lái)，到 2025 年，將有 1000 多億臺(tái)基于 Arm 架構(gòu)的設(shè)備支持 AI。

給作者點(diǎn)贊

0 VS 0

寫(xiě)得不太好

版權(quán)說(shuō)明：凡注明來(lái)源為“C114通信網(wǎng)”的文章皆屬C114版權(quán)所有，除與C114簽署內(nèi)容授權(quán)協(xié)議的單位外，其他單位未經(jīng)允許禁止轉(zhuǎn)載、摘編，違者必究。如需使用，請(qǐng)聯(lián)系021-54451141。其中編譯類(lèi)僅出于傳遞更多信息之目的，系C114對(duì)海外相關(guān)站點(diǎn)最新信息的翻譯稿，僅供參考，不代表證實(shí)其描述或贊同其觀點(diǎn)，投資者據(jù)此操作，風(fēng)險(xiǎn)自擔(dān)；翻譯質(zhì)量問(wèn)題請(qǐng)指正。

相關(guān)鏈接

ARM Blog EDGE 測(cè)試

動(dòng)手體驗(yàn)+以考代練！共碼未來(lái)HarmonyOS Workshop圓滿(mǎn)收官
CSDN 10-31
HarmonySpace鴻蒙座艙大規(guī)模OTA升級(jí) 為用戶(hù)帶來(lái)更智慧的交互體驗(yàn)
廠(chǎng)商供稿 10-29
消息稱(chēng)華為鴻蒙HarmonyOS NEXT系統(tǒng)當(dāng)前有3種方式遷移微信聊天記錄，暫不支持PC轉(zhuǎn)移、云備份恢復(fù)
IT之家歸瀧（實(shí)習(xí)）10-28
高通回應(yīng)Arm取消許可傳聞：Arm的反競(jìng)爭(zhēng)行為將不會(huì)被容忍
IT之家清源10-23