C114通信網(wǎng)  |  通信人家園

 
2025/4/18 14:05

性能再翻倍!科大訊飛聯(lián)合華為在“飛星一號(hào)”上實(shí)現(xiàn)MoE模型大規(guī)模專家并行集群推理性能飛躍

廠商供稿  

繼不久前率先突破國產(chǎn)算力集群上MoE模型的大規(guī)模跨節(jié)點(diǎn)專家并行集群推理,公布業(yè)界首個(gè)基于國產(chǎn)算力的MoE模型訓(xùn)練推理方案后,科大訊飛與華為昇騰聯(lián)合團(tuán)隊(duì)持續(xù)攻關(guān),通過多種優(yōu)化手段提升“飛星一號(hào)”平臺(tái)上MoE模型集群推理的性能上限,并在近期實(shí)現(xiàn)了大規(guī)模專家并行集群推理性能翻番。這也再次證明了國內(nèi)廣泛部署的國產(chǎn)算力“敢打、能打”的深厚實(shí)力。

上一個(gè)版本算子和通信優(yōu)化的基礎(chǔ)之上,聯(lián)合團(tuán)隊(duì)升級了適配MOE模型的PD分離+大規(guī)模專家并行系統(tǒng)解決方案,進(jìn)行了以下技術(shù)創(chuàng)新工作:

●適配MoE的PD分離部署,通過定制集合通信協(xié)議,消除集合通信流量沖突,解決推理過程中Prefill階段和Decode階段的相互干擾,使得P實(shí)例和D實(shí)例均達(dá)到系統(tǒng)最優(yōu),性能提升20%+;

●實(shí)現(xiàn)國產(chǎn)算力上MTP多token預(yù)測技術(shù),降低MTP層計(jì)算耗時(shí),整體性能提升30%+;

●專家負(fù)載均衡算法再升級,多DP負(fù)載均衡,實(shí)現(xiàn)卡間負(fù)載均衡差異小于8%,集群推理吞吐性能提升30%+;

●創(chuàng)新性實(shí)現(xiàn)異步雙發(fā)射技術(shù),解決高并發(fā)下的高CPU負(fù)載問題,實(shí)現(xiàn)CPU和NPU的高效協(xié)同,降低服務(wù)請求調(diào)度耗時(shí),系統(tǒng)性能提升10%。

基于上述解決方案的迭代與升級,通過在“飛星一號(hào)”平臺(tái)上對星火MoE模型、DeepSeekV3/R1進(jìn)行實(shí)測,實(shí)現(xiàn)了推理性能比上一個(gè)版本提升1倍,已逼近國產(chǎn)算力上MoE集群推理的性能上限,也大大加速了訊飛星火大模型的訓(xùn)練。

深度推理大模型訊飛星火X1也即將全新升級,作為業(yè)界唯一基于全國產(chǎn)算力訓(xùn)練的深度推理大模型,X1在數(shù)學(xué)、代碼、邏輯推理、文本生成、語言理解、知識(shí)問答等通用能力上顯著提升,以小一個(gè)數(shù)量級的參數(shù)規(guī)模,實(shí)現(xiàn)整體效果對標(biāo)OpenAI o1和DeepSeek R1,這也再次證明了基于國產(chǎn)算力訓(xùn)練的全棧自主可控大模型具備登頂業(yè)界最高水平的實(shí)力和持續(xù)創(chuàng)新的潛力,期待大家的關(guān)注和體驗(yàn)。

給作者點(diǎn)贊
0 VS 0
寫得不太好

免責(zé)聲明:本文僅代表作者個(gè)人觀點(diǎn),與C114通信網(wǎng)無關(guān)。其原創(chuàng)性以及文中陳述文字和內(nèi)容未經(jīng)本站證實(shí),對本文以及其中全部或者部分內(nèi)容、文字的真實(shí)性、完整性、及時(shí)性本站不作任何保證或承諾,請讀者僅作參考,并請自行核實(shí)相關(guān)內(nèi)容。

熱門文章
    最新視頻
    為您推薦

      C114簡介 | 聯(lián)系我們 | 網(wǎng)站地圖 | 手機(jī)版

      Copyright©1999-2025 c114 All Rights Reserved | 滬ICP備12002291號(hào)

      C114 通信網(wǎng) 版權(quán)所有 舉報(bào)電話:021-54451141