在虛擬現(xiàn)實、元宇宙技術快速發(fā)展的背景下,三維虛擬內(nèi)容創(chuàng)作的高成本與低效率問題一直是行業(yè)痛點。近日,浙江大學計算機科學與技術學院博士研究生、魔芯科技陳天潤帶領團隊,依托浙江大學 鯤鵬昇騰科教創(chuàng)新卓越中心提供的算力支持,實現(xiàn)了基于昇騰平臺NPU的首個三維模型生成算法模型Img2CAD的開發(fā)。
該研究成果的核心突破之一在于破解了用生成模型得到腳本語言對三維結構的精準表達,讓稀疏抽象的草圖、圖片等多模態(tài)輸入能被通過Transformer結構高效 “翻譯” 為三維幾何信息,不需要可微渲染器,能夠完整在NPU上實現(xiàn)訓練和高效推理,無需大量Vector算力——并最終得到能被3D打印、CNC制造加工、數(shù)字世界展覽展示的高精度3D模型,可直接導入現(xiàn)有CAD軟件中進行編輯。其中昇騰加速套件MindSpeed提供了關鍵支撐,該工具支持多類型數(shù)據(jù)加載構建,可靈活適配多模態(tài)數(shù)據(jù)的異構特征,保障了視覺大模型與腳本語言表示模塊的高效協(xié)同。
與此同時,通過算法模型結構的優(yōu)化,團隊實現(xiàn)了三維生成的即時交互建模。CANN算子庫能充分發(fā)揮NPU 的并行計算能力和高效內(nèi)存訪問機制,能大幅減少計算延遲和通信開銷,進一步提升模型推理速度,使系統(tǒng)能夠快速響應用戶輸入的草圖或圖片,為實際落地場景中構建流暢的實時 3D 交互建模體驗提供了堅實的技術保障。
該項目開發(fā)的三維生成方法能夠用于3D數(shù)據(jù)資產(chǎn)的構建,并服務于KOKONI 3D打印機等應用場景,為數(shù)字制造、AR/VR相關產(chǎn)業(yè)提供了高效的內(nèi)容創(chuàng)作解決方案。目前,項目已完成3篇成果論文,包括1篇中科院1區(qū)期刊論文和2篇CCF-A類會議論文,相關成果已在部分場景實現(xiàn)商業(yè)化落地,并將持續(xù)帶動昇騰的澎湃算力在三維數(shù)字化產(chǎn)業(yè)應用。
此次跨模態(tài)可控三維生成技術的突破,不僅是浙江大學 鯤鵬昇騰科教創(chuàng)新卓越中心在產(chǎn)學研融合上的一次成功實踐,更標志著智能三維內(nèi)容創(chuàng)作邁入“低門檻、高效率、高質(zhì)量”的新階段。未來,隨著技術的持續(xù)迭代,Img2CAD相關模型將為工業(yè)設計、數(shù)字文創(chuàng)、AR/VR等千行百業(yè)注入創(chuàng)意動能,推動虛擬與現(xiàn)實世界的融合邊界不斷拓展。