2024/8/13 14:09

阿里通義宣布開源音頻語言模型Qwen2-Audio，推出模型測(cè)評(píng)基準(zhǔn)

新浪科技文猛

8月13日上午消息，阿里通義大模型再次宣布開源新模式，Qwen2系列開源家族新增音頻語言模型Qwen2-Audio。Qwen2-Audio可以不需文本輸入，直接進(jìn)行語音問答，理解并分析用戶輸入的音頻信號(hào)，包括人聲、自然音、音樂等。據(jù)悉，該模型在多個(gè)權(quán)威測(cè)評(píng)中明顯超越先前最佳模型。通義團(tuán)隊(duì)還同步推出了一套全新的音頻理解模型測(cè)評(píng)基準(zhǔn)，相關(guān)論文已入選本周正在舉辦的國(guó)際頂會(huì)ACL 2024。

據(jù)介紹，Qwen2-Audio是通義團(tuán)隊(duì)在音頻理解模型上的新一步探索，相比前一代模型Qwen-Audio，新版模型有了更強(qiáng)的聲音理解能力和更好的指令跟隨能力。Qwen2-Audio具備語音聊天和音頻分析兩種使用模式，前者是指用戶可以用語音向模型發(fā)出指令，模型無需自動(dòng)語音識(shí)別（ASR）模塊就可理解用戶輸入；后者是指模型能夠根據(jù)用戶指令分析音頻信息，包括人類聲音、自然聲音、音樂或者多種信號(hào)混雜的音頻。Qwen2-Audio能夠自動(dòng)實(shí)現(xiàn)兩種模式的切換。

Qwen2-Audio支持超過8種語言和方言，如中文、英語、法語、意大利語、西班牙語、德語、日語，粵語。通義團(tuán)隊(duì)還同步開源了基礎(chǔ)模型 Qwen2-Audio-7B 及其指令跟隨版本Qwen2-Audio-7B-Instruct，用戶可以通過Hugging Face、魔搭社區(qū)ModelScope等下載模型，也可以在魔搭社區(qū)“創(chuàng)空間”直接體驗(yàn)?zāi)Ｐ湍芰Α?

給作者點(diǎn)贊

0 VS 0

寫得不太好

免責(zé)聲明：本文僅代表作者個(gè)人觀點(diǎn)，與C114通信網(wǎng)無關(guān)。其原創(chuàng)性以及文中陳述文字和內(nèi)容未經(jīng)本站證實(shí)，對(duì)本文以及其中全部或者部分內(nèi)容、文字的真實(shí)性、完整性、及時(shí)性本站不作任何保證或承諾，請(qǐng)讀者僅作參考，并請(qǐng)自行核實(shí)相關(guān)內(nèi)容。

相關(guān)鏈接

開源，升級(jí)，降價(jià)：通義大模型“殺瘋了”
C114通信網(wǎng) 九九9-19
阿里通義萬相視覺生成大模型升級(jí)，支持文生視頻、圖生視頻等
IT之家汪淼9-19
阿里云通義千問Github頁(yè)面404，負(fù)責(zé)人回應(yīng)稱沒有跑路、突然被官方標(biāo)記
IT之家汪淼9-5
阿里通義千問Github頁(yè)面突然消失！負(fù)責(zé)人回應(yīng)
快科技黑白9-5

阿里通義宣布開源音頻語言模型Qwen2-Audio，推出模型測(cè)評(píng)基準(zhǔn)

阿里通義宣布開源音頻語言模型Qwen2-Audio，推出模型測(cè)評(píng)基準(zhǔn)