C114通信網(wǎng)  |  通信人家園

人工智能
2025/3/27 08:31

通義千問發(fā)布新一代端到端旗艦?zāi)P蚎wen2.5-Omni

快科技  隨心

阿里云宣布今天發(fā)布新一代端到端多模態(tài)旗艦?zāi)P蚎wen2.5-Omni。

該模型專為全方位多模態(tài)感知設(shè)計,能夠無縫處理文本、圖像、音頻和視頻等多種輸入形式,并通過實時流式響應(yīng)同時生成文本與自然語音合成輸出。

通義千問發(fā)布新一代端到端旗艦?zāi)P蚎wen2.5-Omni:看聽說寫樣樣精通

據(jù)介紹,Qwen2.5-Omni采用Thinker-Talker雙核架構(gòu)。

其中,Thinker 模塊如同大腦,負(fù)責(zé)處理文本、音頻、視頻等多模態(tài)輸入,生成高層語義表征及對應(yīng)文本內(nèi)容。

而Talker模塊則類似發(fā)聲器官,以流式方式接收Thinker實時輸出的語義表征與文本,流暢合成離散語音單元。

通義千問發(fā)布新一代端到端旗艦?zāi)P蚎wen2.5-Omni:看聽說寫樣樣精通

測試中,Qwen2.5-Omni在包括圖像,音頻,音視頻等各種模態(tài)下的表現(xiàn)都優(yōu)于類似大小的單模態(tài)模型以及封閉源模型,例如Qwen2.5-VL-7B、Qwen2-Audio和Gemini-1.5-pro。

通義千問發(fā)布新一代端到端旗艦?zāi)P蚎wen2.5-Omni:看聽說寫樣樣精通

給作者點贊
0 VS 0
寫得不太好

免責(zé)聲明:本文僅代表作者個人觀點,與C114通信網(wǎng)無關(guān)。其原創(chuàng)性以及文中陳述文字和內(nèi)容未經(jīng)本站證實,對本文以及其中全部或者部分內(nèi)容、文字的真實性、完整性、及時性本站不作任何保證或承諾,請讀者僅作參考,并請自行核實相關(guān)內(nèi)容。

熱門文章
    最新視頻
    為您推薦

      C114簡介 | 聯(lián)系我們 | 網(wǎng)站地圖 | 手機版

      Copyright©1999-2025 c114 All Rights Reserved | 滬ICP備12002291號

      C114 通信網(wǎng) 版權(quán)所有 舉報電話:021-54451141