Cloud&AI
`
2025/5/13 13:38
蘋果攜手復(fù)旦大學(xué)推 StreamBridge 端側(cè)視頻大語(yǔ)言模型框架,AI 可實(shí)時(shí)響應(yīng)視頻流
0
0

科技媒體 marktechpost 今天(5 月 13 日)發(fā)布博文,報(bào)道稱蘋果公司聯(lián)合復(fù)旦大學(xué),推出 StreamBridge 端側(cè)視頻大語(yǔ)言模型(Video-LLMs)框架,助力 AI 理解直播流視頻。

直播流視頻理解的挑戰(zhàn)與需求

傳統(tǒng)視頻大語(yǔ)言模型擅長(zhǎng)處理靜態(tài)視頻,但無(wú)法適應(yīng)機(jī)器人技術(shù)和自動(dòng)駕駛等需要實(shí)時(shí)感知的場(chǎng)景,在這些場(chǎng)景下,要求模型能快速理解直播視頻流內(nèi)容,并做出反應(yīng)。

現(xiàn)有的模型面臨兩大難題:一是多輪實(shí)時(shí)理解,即在處理最新視頻片段時(shí)需保留歷史視覺和對(duì)話上下文;二是主動(dòng)響應(yīng),要求模型像人類一樣主動(dòng)監(jiān)控視頻流,并在無(wú)明確指令的情況下及時(shí)輸出反饋。

StreamBridge 框架與創(chuàng)新技術(shù)

為解決上述問題,蘋果公司與復(fù)旦大學(xué)的研究者開發(fā)了 StreamBridge 框架。該框架通過(guò)內(nèi)存緩沖區(qū)和輪次衰減壓縮策略,支持長(zhǎng)上下文交互。

該框架還引入了一個(gè)輕量化的獨(dú)立激活模型,無(wú)縫集成現(xiàn)有視頻大語(yǔ)言模型,實(shí)現(xiàn)主動(dòng)響應(yīng)功能。研究團(tuán)隊(duì)還推出了 Stream-IT 數(shù)據(jù)集,包含約 60 萬(wàn)個(gè)樣本,融合了視頻與文本序列,支持多樣化的指令格式,旨在提升流式視頻理解能力。

StreamBridge 在主流離線模型如 LLaVA-OV-7B、Qwen2-VL-7B 和 Oryx-1.5-7B 上進(jìn)行了測(cè)試。結(jié)果顯示,Qwen2-VL 在 OVO-Bench 和 Streaming-Bench 上的平均分分別提升至 71.30 和 77.04,超越了 GPT-4o 和 Gemini 1.5 Pro 等專有模型。

Oryx-1.5 也取得了顯著進(jìn)步,而 LLaVA-OV 性能略有下降。Stream-IT 數(shù)據(jù)集的微調(diào)進(jìn)一步提升了所有模型的表現(xiàn),證明了 StreamBridge 在流式視頻理解領(lǐng)域的強(qiáng)大潛力。

免責(zé)聲明:本文僅代表作者個(gè)人觀點(diǎn),與C114通信網(wǎng)無(wú)關(guān)。其原創(chuàng)性以及文中陳述文字和內(nèi)容未經(jīng)本站證實(shí),對(duì)本文以及其中全部或者部分內(nèi)容、文字的真實(shí)性、完整性、及時(shí)性本站不作任何保證或承諾,請(qǐng)讀者僅作參考,并請(qǐng)自行核實(shí)相關(guān)內(nèi)容。

給作者點(diǎn)贊
0 VS 0
寫得不太好
為您推薦

C114簡(jiǎn)介     聯(lián)系我們     網(wǎng)站地圖

Copyright©1999-2025 c114 All Rights Reserved 滬ICP備12002291號(hào)-4

C114通信網(wǎng)版權(quán)所有 舉報(bào)電話:021-54451141 用戶注銷