C114通信網(wǎng)  |  通信人家園

人工智能
2024/8/13 13:20

阿里通義千問開源Qwen2-Audio 7B語音交互大模型:自由互動,無需輸入文本

IT之家  沛霖(實習)

阿里通義千問開源 Qwen2-Audio 系列的兩個模型 Qwen2-Audio-7B 和 Qwen2-Audio-7B-Instruct。

作為一個大規(guī)模音頻語言模型,Qwen2-Audio 能夠接受各種音頻信號輸入,并根據(jù)語音指令執(zhí)行音頻分析或直接響應(yīng)文本,有兩種不同的音頻交互模式:

語音聊天:用戶可以自由地與 Qwen2-Audio 進行語音互動,而無需文本輸入

音頻分析:用戶可以在互動過程中提供音頻和文本指令對音頻進行分析

官方在一系列基準數(shù)據(jù)集上進行了測試,Qwen2-Audio 超越了先前的最佳模型。

  ▲ Qwen2-Audio 整體表現(xiàn)

附相關(guān)鏈接如下:

試用鏈接:https://huggingface.co/spaces/Qwen/Qwen2-Audio-Instruct-Demo

論文地址:https://arxiv.org/abs/2407.10759

評估標準:https://github.com/OFA-Sys/AIR-Bench

開源代碼:https://github.com/QwenLM/Qwen2-Audio

給作者點贊
0 VS 0
寫得不太好

免責聲明:本文僅代表作者個人觀點,與C114通信網(wǎng)無關(guān)。其原創(chuàng)性以及文中陳述文字和內(nèi)容未經(jīng)本站證實,對本文以及其中全部或者部分內(nèi)容、文字的真實性、完整性、及時性本站不作任何保證或承諾,請讀者僅作參考,并請自行核實相關(guān)內(nèi)容。

熱門文章
    最新視頻
    為您推薦

      C114簡介 | 聯(lián)系我們 | 網(wǎng)站地圖 | 手機版

      Copyright©1999-2024 c114 All Rights Reserved | 滬ICP備12002291號

      C114 通信網(wǎng) 版權(quán)所有 舉報電話:021-54451141