C114訊 9月16日消息 伴隨5G網(wǎng)絡在全球的大規(guī)模部署商用,人工智能(AI)等新興技術的落地開始呈現(xiàn)加速態(tài)勢。不過,從一個理論概念到真正商用實現(xiàn),AI還有許多問題需要解決。無論是數(shù)據(jù)模型計算的準確性,還是配合AI應用的硬件平臺性能發(fā)揮,仍都處于初期探索階段。
在展銳于9月16日舉辦的“UP 2021展銳線上生態(tài)峰會”——AI前沿技術與研究論壇上,包括展銳內(nèi)部技術專家、學術機構科研專家以及產(chǎn)業(yè)領域的創(chuàng)新企業(yè)領導者在內(nèi)的多名嘉賓針對AI前沿技術發(fā)表和分享了其研究成果,從模型自適應優(yōu)化到深度學習,再到神經(jīng)網(wǎng)絡部署和AI訓練平臺,精彩的內(nèi)容令我們對這些技術有了更深層次的了解和認識。
展銳專家共話AI技術 從挑戰(zhàn)到實際應用一個不落
在整個AI的應用當中,需要進行高效的推擬,而高效的模型推理需要軟硬結合的結果。展銳瑪納斯技術實驗室主任陳靜煒在其演講中指出,如何開發(fā)出更加適合平臺的算法是當今面臨的重要挑戰(zhàn)。
展銳瑪納斯技術實驗室主任陳靜煒
針對此,展銳提出了一種面向硬件自適應的模型優(yōu)化模式。具體來說,就是以原始模型為基礎,僅嘗試面向硬件的結構微調(diào)和模型壓縮方案,復雜度相對較低;這種模式支持不同的優(yōu)化策略,可以按照選擇精度優(yōu)先和數(shù)字優(yōu)先方式進行搜索;同時,這種模式良好的擴展性和自由度,可以增加或減少備選的精度表示,并且也可以增加其他優(yōu)化方案;此外還可以通過知識蒸餾降低中間結果評估時間,以及通過在線Profiling評估中間結果的性能和瓶頸位置。
展銳技術專家田立
展銳技術專家田立則對神經(jīng)網(wǎng)絡部署的發(fā)展現(xiàn)狀進行了介紹,他表示目前存在多種網(wǎng)絡模型訓練框架,同時模型算子不斷發(fā)展更新,并且有著不同的量化方式,同時硬件平臺存在著多樣性,因為算法與硬件之間的差異,導致有些模型在硬件上部署的時候效率并不是很高。
在這方面,展銳提出了NNMRT的方案,利用異構硬件加速器,通過離線工具鏈對NN網(wǎng)絡進行編譯優(yōu)化,在線微運行時高效調(diào)度算子,提高AI算法部署到異構平臺的性能。展銳團隊通過集成有NPU和VDSP的T770平臺對這一模型進行了驗證,編譯器通過把部分算子部署到NPU上,部分算子部署到VDSP上,以此提高了模型部署的效率。
具體到實際的AI應用方面,展銳的另外三位專家分別從基于神經(jīng)網(wǎng)絡的全場景拍照技術、基于深度學習的多目標檢測與跟蹤和基于深度學習的語音增強技術做了詳細介紹。
展銳多媒體技術專家劉千順指出,當前智能手機拍照面臨的挑戰(zhàn)包括硬件配置受限、動態(tài)范圍差、環(huán)境照度低以及模糊和噪聲。為此,展銳開發(fā)了一套基于神經(jīng)網(wǎng)絡的全場景的解決方案,包括智能曝光、多幀降噪和動態(tài)范圍增強三大模塊。
展銳多媒體技術專家劉千順
以智能曝光模塊為例,其中包括運動模式判斷、曝光出幀策略和場景語義信息。該模塊會根據(jù)環(huán)境亮度、圖像直方圖統(tǒng)計、陀螺儀、加速度計以及人臉檢測結果,來綜合考慮,從而配置出最佳的方案。當出幀之后,選定參考幀之后,會經(jīng)過場景語義分割模塊,生成天空、綠植、人像、建筑物等12類語義mask+膚色mask。通過三大模塊的結合,可以大大提升手機拍照成像的質(zhì)量。
同時,在已經(jīng)廣泛應用于智能安防與監(jiān)控、無人駕駛、機器人、人機交互、以及視頻分析等領域的多目標檢測與跟蹤的技術方面,展銳技術專家龐磊則介紹了展銳所采用的基于深度學習的多目標檢測與跟蹤算法:展銳在權衡了性能與效率之間的關系后,選擇了JED框架作為其跟蹤框架,也就是說在同一個網(wǎng)絡中同時完成檢測和跟蹤。
展銳技術專家龐磊
同時,由于檢測性能對于多目標跟蹤的性能是尤其關鍵的,展銳選擇了Anchor-based方法作為其檢測器框架,并且對網(wǎng)絡結構、損失函數(shù)等做了一系列優(yōu)化來保證檢測性能。在好的檢測結果基礎上還需要更好地進行數(shù)據(jù)之間的關聯(lián),在這方面展銳使用了運動信息結合外觀特征的形式,并且在外觀特征的網(wǎng)絡分支中加入了注意力模塊,從而強化外觀特征的學習。
此外,展銳多媒體技術專家董斐就基于深度學習的語音增強技術進行了詳細介紹。董斐談到,智能終端常需要在多種使用場合進行通話、音視頻會議、游戲語音,實際使用中大多數(shù)使用場合中都會受到噪聲、嘯叫、回聲等的干擾,導致語音受損,嚴重影響語音質(zhì)量。
展銳多媒體技術專家董斐
據(jù)介紹,以基于深度學習的方案為主,信號處理方案為輔,結合兩者所長,是當前智能終端語音增強的最優(yōu)解決方案。紫光展銳的語音增強技術則包括上下行處理通路,具備回聲消除、噪音抑制、回聲抑制、EQ濾波器、自動增益、嘯叫抑制等功能。整個解決方案中最重要的是基于深度學習的算法模塊,其設計要滿足智能終端對語音增強算法的三項要求。除了抑制噪聲和嘯叫,深度學習在語音的其他技術方向的應用也是未來的發(fā)展趨勢。
行業(yè)大咖解AI訓練平臺與計算架構難題
除了上述來自展銳自身的技術專家外,來自致力于為行業(yè)提供自動化、平臺化的AI開發(fā)服務的國內(nèi)AI領域初創(chuàng)企業(yè)共達地創(chuàng)新技術有限公司產(chǎn)品總監(jiān)劉榮杰,以及西安交通大學AI領域知名學者任鵬舉教授也分別就其所從事的研究進行了主題分享。
共達地創(chuàng)新技術有限公司產(chǎn)品總監(jiān)劉榮杰
劉榮杰分析稱,目前AI實際落地的過程中仍存有許多障礙,核心問題包括人員不可控、成本不可控、調(diào)參不可控、精度不可控以及部署不可控。而AutoML技術可以解決這些痛點,但當前的主流方案仍存在一些問題,首先是模型搜索效率低,難以應用于工業(yè)規(guī)模的數(shù)據(jù)集,并且搜索過程不穩(wěn)定結果不可控,無法針對硬件芯片進行定制。針對以上問題,共達地的核心AI團隊做了大量工作,最終真正實現(xiàn)了可落地的AutoML自動化訓練平臺。
據(jù)其介紹,這一AI自動化訓練平臺的總體架構和優(yōu)勢體現(xiàn)在:低門檻——整個AI模型開發(fā)流程自動化,從而降低了AI落地的門檻;性能高——通過可落地的前沿算法實現(xiàn)高精度模型的生成;一鍵到端——通過與主流芯片的深度支持,實現(xiàn)模型一鍵下發(fā)至終端簡化整體模型部署流程;定制無憂——每個模型都是根據(jù)場景定制化搜索生成最優(yōu)模型,不再需要人工設計高效低成本;高效低成本——一次訓練即達最優(yōu),免去人類專家多次嘗試多次調(diào)整,效率提升80%以上,開發(fā)成本降低95%以上。
在此次論壇上,西安交通大學任鵬舉教授以《面向自主智能體的高效計算架構思考》發(fā)表了演講。他表示,以智能邊緣,計算機視覺,自動控制等創(chuàng)新技術作為支撐的自主移動智能體,在以無人駕駛為代表的交通領域和以AGV為代表的物流領域?qū)袕V泛的應用。不過,這些自主移動智能體在解放生產(chǎn)力的同時,對計算架構也提出了新的設計要求。
西安交通大學任鵬舉教授
他認為,面向自主智能體感知與協(xié)作的計算架構,應滿足多種不同功能自主智能體及其應用場景的信息處理需求。相比于市面上現(xiàn)有的計算架構: x86工控機、嵌入式GPU(NvidiaTX2)、ARM+FPGA等方案,具有更好的適應能力、任務重構能力、靈活性和升級能力。其主要特點體現(xiàn)在:LEGO式模塊級拼接融合的工作模式(即插即用);高通量的多傳感器實時信息融合處理(高通量、低延遲);數(shù)據(jù)流控制流相融合的高效處理方式(異構計算);可擴展的分布式智能體協(xié)同調(diào)度機制(高效協(xié)同)。
任鵬舉教授表示,其所在的課題組在今年4月份完成了一款多核AI芯片處理器——HiPU200的設計。該芯片采用28納米工藝,擁有13個計算核心,外加兩個DDR控制器和一個PCIe,構成了4×4的2Dmesh的多核結構。其團隊將HIPU200芯片完成了在無人駕駛車的應用驗證,經(jīng)過第三方權威測試機構評測,搭載該芯片的計算卡可原位替換英偉達GPU顯卡,運行相同神經(jīng)網(wǎng)絡時,HiPU200的處理速度是RTX2080Ti GPGPU的7.7-35倍,能效比是其的15-30倍。算力優(yōu)于國際知名公司Mobileye的 EyeQ4芯片,與地平線征程5處理器相當。