2025/3/27 08:31

通義千問發(fā)布新一代端到端旗艦?zāi)Ｐ蚎wen2.5-Omni

快科技隨心

阿里云宣布今天發(fā)布新一代端到端多模態(tài)旗艦?zāi)Ｐ蚎wen2.5-Omni。

該模型專為全方位多模態(tài)感知設(shè)計，能夠無縫處理文本、圖像、音頻和視頻等多種輸入形式，并通過實時流式響應(yīng)同時生成文本與自然語音合成輸出。

通義千問發(fā)布新一代端到端旗艦?zāi)Ｐ蚎wen2.5-Omni：看聽說寫樣樣精通

據(jù)介紹，Qwen2.5-Omni采用Thinker-Talker雙核架構(gòu)。

其中，Thinker 模塊如同大腦，負(fù)責(zé)處理文本、音頻、視頻等多模態(tài)輸入，生成高層語義表征及對應(yīng)文本內(nèi)容。

而Talker模塊則類似發(fā)聲器官，以流式方式接收Thinker實時輸出的語義表征與文本，流暢合成離散語音單元。

通義千問發(fā)布新一代端到端旗艦?zāi)Ｐ蚎wen2.5-Omni：看聽說寫樣樣精通

測試中，Qwen2.5-Omni在包括圖像，音頻，音視頻等各種模態(tài)下的表現(xiàn)都優(yōu)于類似大小的單模態(tài)模型以及封閉源模型，例如Qwen2.5-VL-7B、Qwen2-Audio和Gemini-1.5-pro。

通義千問發(fā)布新一代端到端旗艦?zāi)Ｐ蚎wen2.5-Omni：看聽說寫樣樣精通

給作者點贊

0 VS 0

寫得不太好

免責(zé)聲明：本文僅代表作者個人觀點，與C114通信網(wǎng)無關(guān)。其原創(chuàng)性以及文中陳述文字和內(nèi)容未經(jīng)本站證實，對本文以及其中全部或者部分內(nèi)容、文字的真實性、完整性、及時性本站不作任何保證或承諾，請讀者僅作參考，并請自行核實相關(guān)內(nèi)容。

相關(guān)鏈接

測試

阿里通義千問推出視覺推理模型 QVQ-Max：可分析、推理圖片和視頻內(nèi)容
IT之家遠(yuǎn)洋3-28
手機也能跑的模型來了！阿里宣布開源Qwen2.5-Omni-7B
快科技拾柒3-27
阿里云推出最新通義千問 QwQ-32B 推理模型，僅 1/20 參數(shù)媲美 DeepSeek R1
IT之家問舟3-6
傳音控股與阿里云達成合作，通義千問大模型搭載于前者旗下 AI 手機
IT之家遠(yuǎn)洋1-7