2025/4/18 14:05

性能再翻倍！科大訊飛聯(lián)合華為在“飛星一號”上實(shí)現(xiàn)MoE模型大規(guī)模專家并行集群推理性能飛躍

廠商供稿

繼不久前率先突破國產(chǎn)算力集群上MoE模型的大規(guī)模跨節(jié)點(diǎn)專家并行集群推理，公布業(yè)界首個基于國產(chǎn)算力的MoE模型訓(xùn)練推理方案后，科大訊飛與華為昇騰聯(lián)合團(tuán)隊(duì)持續(xù)攻關(guān)，通過多種優(yōu)化手段提升“飛星一號”平臺上MoE模型集群推理的性能上限，并在近期實(shí)現(xiàn)了大規(guī)模專家并行集群推理性能翻番。這也再次證明了國內(nèi)廣泛部署的國產(chǎn)算力“敢打、能打”的深厚實(shí)力。

在上一個版本算子和通信優(yōu)化的基礎(chǔ)之上，聯(lián)合團(tuán)隊(duì)升級了適配MOE模型的PD分離+大規(guī)模專家并行系統(tǒng)解決方案，進(jìn)行了以下技術(shù)創(chuàng)新工作：

●適配MoE的PD分離部署，通過定制集合通信協(xié)議，消除集合通信流量沖突，解決推理過程中Prefill階段和Decode階段的相互干擾，使得P實(shí)例和D實(shí)例均達(dá)到系統(tǒng)最優(yōu)，性能提升20%+；

●實(shí)現(xiàn)國產(chǎn)算力上MTP多token預(yù)測技術(shù)，降低MTP層計(jì)算耗時，整體性能提升30%+；

●專家負(fù)載均衡算法再升級，多DP負(fù)載均衡，實(shí)現(xiàn)卡間負(fù)載均衡差異小于8%，集群推理吞吐性能提升30%+；

●創(chuàng)新性實(shí)現(xiàn)異步雙發(fā)射技術(shù)，解決高并發(fā)下的高CPU負(fù)載問題，實(shí)現(xiàn)CPU和NPU的高效協(xié)同，降低服務(wù)請求調(diào)度耗時，系統(tǒng)性能提升10%。

基于上述解決方案的迭代與升級，通過在“飛星一號”平臺上對星火MoE模型、DeepSeekV3/R1進(jìn)行實(shí)測，實(shí)現(xiàn)了推理性能比上一個版本提升1倍，已逼近國產(chǎn)算力上MoE集群推理的性能上限，也大大加速了訊飛星火大模型的訓(xùn)練。

深度推理大模型訊飛星火X1也即將全新升級，作為業(yè)界唯一基于全國產(chǎn)算力訓(xùn)練的深度推理大模型，X1在數(shù)學(xué)、代碼、邏輯推理、文本生成、語言理解、知識問答等通用能力上顯著提升，以小一個數(shù)量級的參數(shù)規(guī)模，實(shí)現(xiàn)整體效果對標(biāo)OpenAI o1和DeepSeek R1，這也再次證明了基于國產(chǎn)算力訓(xùn)練的全棧自主可控大模型具備登頂業(yè)界最高水平的實(shí)力和持續(xù)創(chuàng)新的潛力，期待大家的關(guān)注和體驗(yàn)。

給作者點(diǎn)贊

0 VS 0

寫得不太好

免責(zé)聲明：本文僅代表作者個人觀點(diǎn)，與C114通信網(wǎng)無關(guān)。其原創(chuàng)性以及文中陳述文字和內(nèi)容未經(jīng)本站證實(shí)，對本文以及其中全部或者部分內(nèi)容、文字的真實(shí)性、完整性、及時性本站不作任何保證或承諾，請讀者僅作參考，并請自行核實(shí)相關(guān)內(nèi)容。

相關(guān)鏈接

華為 OpenAI

科大訊飛吳曉如：聚焦核心業(yè)務(wù)，產(chǎn)線數(shù)量從60條縮減至46條
C114通信網(wǎng) 南山4-22
科大訊飛2024年?duì)I收233.43億元同比增長18.79%
C114通信網(wǎng) 南山4-22
科大訊飛：一季度營收46.58億元凈虧損1.93億元
快科技隨心4-22

性能再翻倍！科大訊飛聯(lián)合華為在“飛星一號”上實(shí)現(xiàn)MoE模型大規(guī)模專家并行集群推理性能飛躍

性能再翻倍！科大訊飛聯(lián)合華為在“飛星一號”上實(shí)現(xiàn)MoE模型大規(guī)模專家并行集群推理性能飛躍