阿里通義千問開源 Qwen2-Audio 系列的兩個模型 Qwen2-Audio-7B 和 Qwen2-Audio-7B-Instruct。
作為一個大規(guī)模音頻語言模型,Qwen2-Audio 能夠接受各種音頻信號輸入,并根據(jù)語音指令執(zhí)行音頻分析或直接響應(yīng)文本,有兩種不同的音頻交互模式:
語音聊天:用戶可以自由地與 Qwen2-Audio 進行語音互動,而無需文本輸入
音頻分析:用戶可以在互動過程中提供音頻和文本指令對音頻進行分析
官方在一系列基準數(shù)據(jù)集上進行了測試,Qwen2-Audio 超越了先前的最佳模型。
▲ Qwen2-Audio 整體表現(xiàn)
附相關(guān)鏈接如下:
試用鏈接:https://huggingface.co/spaces/Qwen/Qwen2-Audio-Instruct-Demo
論文地址:https://arxiv.org/abs/2407.10759
評估標準:https://github.com/OFA-Sys/AIR-Bench