C114通信網(wǎng)  |  通信人家園

人工智能
2024/8/30 09:34

阿里通義千問(wèn)推出Qwen2-VL:開(kāi)源2B/7B模型,處理任意分辨率圖像無(wú)需分割成塊

IT之家  沛霖(實(shí)習(xí))

通義千問(wèn)團(tuán)隊(duì)今天對(duì) Qwen-VL(視覺(jué)語(yǔ)言、Vision Language)模型進(jìn)行更新,推出 Qwen2-VL。

Qwen2-VL 的一項(xiàng)關(guān)鍵架構(gòu)改進(jìn)是實(shí)現(xiàn)了動(dòng)態(tài)分辨率支持(Naive Dynamic Resolution support)。與上一代模型 Qwen-VL 不同,Qwen2-VL 可以處理任意分辨率的圖像,而無(wú)需將其分割成塊,從而確保模型輸入與圖像固有信息之間的一致性。這種方法更接近地模仿人類(lèi)的視覺(jué)感知,使模型能夠處理任何清晰度或大小的圖像。

另一個(gè)關(guān)鍵架構(gòu)增強(qiáng)是 Multimodal Rotary Position Embedding(M-ROPE)。通過(guò)將 original rotary embedding 分解為代表時(shí)間和空間(高度和寬度)信息的三個(gè)部分,M-ROPE 使 LLM 能夠同時(shí)捕獲和集成 1D 文本、2D 視覺(jué)和 3D 視頻位置信息。這使 LLM 能夠充當(dāng)多模態(tài)處理器和推理器。

在 7B 規(guī)模下,Qwen2-VL-7B 保留了對(duì)圖像、多圖像和視頻輸入的支持,以更具成本效益的模型大小提供“具有競(jìng)爭(zhēng)力”的性能。

Qwen2-VL-2B 模型針對(duì)潛在的移動(dòng)部署進(jìn)行了優(yōu)化。盡管參數(shù)量只有 2B,但官方表示該模型在圖像、視頻和多語(yǔ)言理解方面表現(xiàn)出色。

給作者點(diǎn)贊
0 VS 0
寫(xiě)得不太好

免責(zé)聲明:本文僅代表作者個(gè)人觀點(diǎn),與C114通信網(wǎng)無(wú)關(guān)。其原創(chuàng)性以及文中陳述文字和內(nèi)容未經(jīng)本站證實(shí),對(duì)本文以及其中全部或者部分內(nèi)容、文字的真實(shí)性、完整性、及時(shí)性本站不作任何保證或承諾,請(qǐng)讀者僅作參考,并請(qǐng)自行核實(shí)相關(guān)內(nèi)容。

熱門(mén)文章
    最新視頻
    為您推薦

      C114簡(jiǎn)介 | 聯(lián)系我們 | 網(wǎng)站地圖 | 手機(jī)版

      Copyright©1999-2024 c114 All Rights Reserved | 滬ICP備12002291號(hào)

      C114 通信網(wǎng) 版權(quán)所有 舉報(bào)電話(huà):021-54451141