阿里云宣布今天發(fā)布新一代端到端多模態(tài)旗艦?zāi)P蚎wen2.5-Omni。
該模型專為全方位多模態(tài)感知設(shè)計,能夠無縫處理文本、圖像、音頻和視頻等多種輸入形式,并通過實時流式響應(yīng)同時生成文本與自然語音合成輸出。
據(jù)介紹,Qwen2.5-Omni采用Thinker-Talker雙核架構(gòu)。
其中,Thinker 模塊如同大腦,負(fù)責(zé)處理文本、音頻、視頻等多模態(tài)輸入,生成高層語義表征及對應(yīng)文本內(nèi)容。
而Talker模塊則類似發(fā)聲器官,以流式方式接收Thinker實時輸出的語義表征與文本,流暢合成離散語音單元。
測試中,Qwen2.5-Omni在包括圖像,音頻,音視頻等各種模態(tài)下的表現(xiàn)都優(yōu)于類似大小的單模態(tài)模型以及封閉源模型,例如Qwen2.5-VL-7B、Qwen2-Audio和Gemini-1.5-pro。