近日,在計(jì)算機(jī)視覺領(lǐng)域頂級(jí)會(huì)議CVPR2025舉辦的國(guó)際挑戰(zhàn)賽中,中興通訊自研星云視覺大模型(Nebula-CV2.0)憑借出色的多模態(tài)感知能力和模型性能,從全球數(shù)十個(gè)參賽隊(duì)伍中脫穎而出,一舉奪得三項(xiàng)冠軍:
· 跨域少樣本目標(biāo)檢測(cè)挑戰(zhàn)賽(NTIRE 2025 CD-FSOD Challenge)冠軍
· 基礎(chǔ)少樣本目標(biāo)檢測(cè)挑戰(zhàn)賽 (2025 Foundational FSOD Challenge)冠軍
· 目標(biāo)實(shí)例檢測(cè)挑戰(zhàn)賽(2025 Object Instance Detection Challenge)冠軍
這三項(xiàng)挑戰(zhàn)賽聚焦于模型在復(fù)雜場(chǎng)景下的開集目標(biāo)檢測(cè)能力,考察模型在開集(測(cè)試時(shí)會(huì)出現(xiàn)訓(xùn)練集中不存在的目標(biāo)類別)、少樣本、少標(biāo)注條件下對(duì)目標(biāo)識(shí)別性能極限,對(duì)模型泛化能力有極高的要求。挑戰(zhàn)賽場(chǎng)景數(shù)據(jù)源于真實(shí)工業(yè)環(huán)境,模型需要根據(jù)用戶描述或者視覺提示對(duì)特定目標(biāo)進(jìn)行精準(zhǔn)識(shí)別,對(duì)模型的工業(yè)化應(yīng)用具有關(guān)鍵意義。
星云視覺大模型
星云視覺系列大模型是中興通訊自研的多模態(tài)視覺大模型。其中,開集目標(biāo)檢測(cè)與識(shí)別大模型Nebula-CV2.0的參數(shù)量?jī)H為行業(yè)同類模型的60%,在BenchMark公開評(píng)測(cè)集MS COCO 2017上的性能卻全面超越所有開源同級(jí)模型,這得益于多項(xiàng)核心技術(shù)創(chuàng)新:
· 模態(tài)編碼器參數(shù)平衡策略:解決了多模態(tài)學(xué)習(xí)中常見的參數(shù)分布失衡和冗余問(wèn)題,使得模型訓(xùn)練更高效,在更小參數(shù)量下實(shí)現(xiàn)了更卓越的性能。
· Visual Prompt區(qū)域圖文對(duì)齊:通過(guò)引入視覺提示,使得圖像和文本信息能夠更精準(zhǔn)地對(duì)應(yīng),顯著提升了模型的目標(biāo)定位性能。
· 中文Prompt模塊:業(yè)內(nèi)率先實(shí)現(xiàn)中文開集目標(biāo)檢測(cè)功能,支持中英文混合提示的開集目標(biāo)定位,大大拓寬了模型的應(yīng)用范圍。
· 開集目標(biāo)檢測(cè)數(shù)據(jù)集質(zhì)量評(píng)估和數(shù)據(jù)重標(biāo)方法:獨(dú)創(chuàng)的數(shù)據(jù)處理方法極大提升了開集目標(biāo)檢測(cè)數(shù)據(jù)集的質(zhì)量,顯著增強(qiáng)了模型性能和訓(xùn)練穩(wěn)定性。
視覺(CV)多任務(wù)統(tǒng)一大模型NebulaCV-X整合了視覺應(yīng)用場(chǎng)景中常見的開集目標(biāo)檢測(cè)、實(shí)例分割、人體關(guān)鍵點(diǎn)檢測(cè)、目標(biāo)Caption生成、OCR、Visual Prompt、自定義Prompt等多種功能,在滿足高性能要求的同時(shí),極大地簡(jiǎn)化了CV領(lǐng)域多任務(wù)需求場(chǎng)景下的模型部署,為客戶提供了更加高效、便捷的解決方案。
目前,星云視覺系列大模型已經(jīng)在交通、運(yùn)輸、安防等領(lǐng)域多個(gè)重要場(chǎng)景成功應(yīng)用,為客戶提供綜合性的多模態(tài)視覺解決方案。