繼不久前率先突破國產(chǎn)算力集群上MoE模型的大規(guī)模跨節(jié)點(diǎn)專家并行集群推理,公布業(yè)界首個(gè)基于國產(chǎn)算力的MoE模型訓(xùn)練推理方案后,科大訊飛與華為昇騰聯(lián)合團(tuán)隊(duì)持續(xù)攻關(guān),通過多種優(yōu)化手段提升“飛星一號(hào)”平臺(tái)上MoE模型集群推理的性能上限,并在近期實(shí)現(xiàn)了大規(guī)模專家并行集群推理性能翻番。這也再次證明了國內(nèi)廣泛部署的國產(chǎn)算力“敢打、能打”的深厚實(shí)力。
在上一個(gè)版本算子和通信優(yōu)化的基礎(chǔ)之上,聯(lián)合團(tuán)隊(duì)升級了適配MOE模型的PD分離+大規(guī)模專家并行系統(tǒng)解決方案,進(jìn)行了以下技術(shù)創(chuàng)新工作:
●適配MoE的PD分離部署,通過定制集合通信協(xié)議,消除集合通信流量沖突,解決推理過程中Prefill階段和Decode階段的相互干擾,使得P實(shí)例和D實(shí)例均達(dá)到系統(tǒng)最優(yōu),性能提升20%+;
●實(shí)現(xiàn)國產(chǎn)算力上MTP多token預(yù)測技術(shù),降低MTP層計(jì)算耗時(shí),整體性能提升30%+;
●專家負(fù)載均衡算法再升級,多DP負(fù)載均衡,實(shí)現(xiàn)卡間負(fù)載均衡差異小于8%,集群推理吞吐性能提升30%+;
●創(chuàng)新性實(shí)現(xiàn)異步雙發(fā)射技術(shù),解決高并發(fā)下的高CPU負(fù)載問題,實(shí)現(xiàn)CPU和NPU的高效協(xié)同,降低服務(wù)請求調(diào)度耗時(shí),系統(tǒng)性能提升10%。
基于上述解決方案的迭代與升級,通過在“飛星一號(hào)”平臺(tái)上對星火MoE模型、DeepSeekV3/R1進(jìn)行實(shí)測,實(shí)現(xiàn)了推理性能比上一個(gè)版本提升1倍,已逼近國產(chǎn)算力上MoE集群推理的性能上限,也大大加速了訊飛星火大模型的訓(xùn)練。
深度推理大模型訊飛星火X1也即將全新升級,作為業(yè)界唯一基于全國產(chǎn)算力訓(xùn)練的深度推理大模型,X1在數(shù)學(xué)、代碼、邏輯推理、文本生成、語言理解、知識(shí)問答等通用能力上顯著提升,以小一個(gè)數(shù)量級的參數(shù)規(guī)模,實(shí)現(xiàn)整體效果對標(biāo)OpenAI o1和DeepSeek R1,這也再次證明了基于國產(chǎn)算力訓(xùn)練的全棧自主可控大模型具備登頂業(yè)界最高水平的實(shí)力和持續(xù)創(chuàng)新的潛力,期待大家的關(guān)注和體驗(yàn)。