2024/8/13 13:20

阿里通義千問開源Qwen2-Audio 7B語音交互大模型：自由互動，無需輸入文本

IT之家沛霖（實習）

阿里通義千問開源 Qwen2-Audio 系列的兩個模型 Qwen2-Audio-7B 和 Qwen2-Audio-7B-Instruct。

作為一個大規(guī)模音頻語言模型，Qwen2-Audio 能夠接受各種音頻信號輸入，并根據(jù)語音指令執(zhí)行音頻分析或直接響應(yīng)文本，有兩種不同的音頻交互模式：

語音聊天：用戶可以自由地與 Qwen2-Audio 進行語音互動，而無需文本輸入

音頻分析：用戶可以在互動過程中提供音頻和文本指令對音頻進行分析

官方在一系列基準數(shù)據(jù)集上進行了測試，Qwen2-Audio 超越了先前的最佳模型。

　　▲ Qwen2-Audio 整體表現(xiàn)

附相關(guān)鏈接如下：

試用鏈接：https://huggingface.co/spaces/Qwen/Qwen2-Audio-Instruct-Demo

論文地址：https://arxiv.org/abs/2407.10759

評估標準：https://github.com/OFA-Sys/AIR-Bench

開源代碼：https://github.com/QwenLM/Qwen2-Audio

給作者點贊

0 VS 0

寫得不太好

免責聲明：本文僅代表作者個人觀點，與C114通信網(wǎng)無關(guān)。其原創(chuàng)性以及文中陳述文字和內(nèi)容未經(jīng)本站證實，對本文以及其中全部或者部分內(nèi)容、文字的真實性、完整性、及時性本站不作任何保證或承諾，請讀者僅作參考，并請自行核實相關(guān)內(nèi)容。

相關(guān)鏈接

測試 OFA

阿里通義千問開源Qwen2-Audio 7B語音交互大模型：自由互動，無需輸入文本

阿里通義千問開源Qwen2-Audio 7B語音交互大模型：自由互動，無需輸入文本