2024/8/30 09:34

阿里通義千問(wèn)推出Qwen2-VL：開(kāi)源2B/7B模型，處理任意分辨率圖像無(wú)需分割成塊

IT之家沛霖（實(shí)習(xí)）

通義千問(wèn)團(tuán)隊(duì)今天對(duì) Qwen-VL（視覺(jué)語(yǔ)言、Vision Language）模型進(jìn)行更新，推出 Qwen2-VL。

Qwen2-VL 的一項(xiàng)關(guān)鍵架構(gòu)改進(jìn)是實(shí)現(xiàn)了動(dòng)態(tài)分辨率支持（Naive Dynamic Resolution support）。與上一代模型 Qwen-VL 不同，Qwen2-VL 可以處理任意分辨率的圖像，而無(wú)需將其分割成塊，從而確保模型輸入與圖像固有信息之間的一致性。這種方法更接近地模仿人類(lèi)的視覺(jué)感知，使模型能夠處理任何清晰度或大小的圖像。

另一個(gè)關(guān)鍵架構(gòu)增強(qiáng)是 Multimodal Rotary Position Embedding（M-ROPE）。通過(guò)將 original rotary embedding 分解為代表時(shí)間和空間（高度和寬度）信息的三個(gè)部分，M-ROPE 使 LLM 能夠同時(shí)捕獲和集成 1D 文本、2D 視覺(jué)和 3D 視頻位置信息。這使 LLM 能夠充當(dāng)多模態(tài)處理器和推理器。

在 7B 規(guī)模下，Qwen2-VL-7B 保留了對(duì)圖像、多圖像和視頻輸入的支持，以更具成本效益的模型大小提供“具有競(jìng)爭(zhēng)力”的性能。

Qwen2-VL-2B 模型針對(duì)潛在的移動(dòng)部署進(jìn)行了優(yōu)化。盡管參數(shù)量只有 2B，但官方表示該模型在圖像、視頻和多語(yǔ)言理解方面表現(xiàn)出色。

給作者點(diǎn)贊

0 VS 0

寫(xiě)得不太好

免責(zé)聲明：本文僅代表作者個(gè)人觀點(diǎn)，與C114通信網(wǎng)無(wú)關(guān)。其原創(chuàng)性以及文中陳述文字和內(nèi)容未經(jīng)本站證實(shí)，對(duì)本文以及其中全部或者部分內(nèi)容、文字的真實(shí)性、完整性、及時(shí)性本站不作任何保證或承諾，請(qǐng)讀者僅作參考，并請(qǐng)自行核實(shí)相關(guān)內(nèi)容。

相關(guān)鏈接

阿里通義千問(wèn)推出Qwen2-VL：開(kāi)源2B/7B模型，處理任意分辨率圖像無(wú)需分割成塊

阿里通義千問(wèn)推出Qwen2-VL：開(kāi)源2B/7B模型，處理任意分辨率圖像無(wú)需分割成塊