在线观看av黄网站永久,在线观看免费一级无码婬a片

2025/5/13 13:38

蘋果攜手復(fù)旦大學(xué)推 StreamBridge 端側(cè)視頻大語(yǔ)言模型框架，AI 可實(shí)時(shí)響應(yīng)視頻流

IT之家故淵

科技媒體 marktechpost 今天（5 月 13 日）發(fā)布博文，報(bào)道稱蘋果公司聯(lián)合復(fù)旦大學(xué)，推出 StreamBridge 端側(cè)視頻大語(yǔ)言模型（Video-LLMs）框架，助力 AI 理解直播流視頻。

直播流視頻理解的挑戰(zhàn)與需求

傳統(tǒng)視頻大語(yǔ)言模型擅長(zhǎng)處理靜態(tài)視頻，但無(wú)法適應(yīng)機(jī)器人技術(shù)和自動(dòng)駕駛等需要實(shí)時(shí)感知的場(chǎng)景，在這些場(chǎng)景下，要求模型能快速理解直播視頻流內(nèi)容，并做出反應(yīng)。

現(xiàn)有的模型面臨兩大難題：一是多輪實(shí)時(shí)理解，即在處理最新視頻片段時(shí)需保留歷史視覺和對(duì)話上下文；二是主動(dòng)響應(yīng)，要求模型像人類一樣主動(dòng)監(jiān)控視頻流，并在無(wú)明確指令的情況下及時(shí)輸出反饋。

StreamBridge 框架與創(chuàng)新技術(shù)

為解決上述問題，蘋果公司與復(fù)旦大學(xué)的研究者開發(fā)了 StreamBridge 框架。該框架通過(guò)內(nèi)存緩沖區(qū)和輪次衰減壓縮策略，支持長(zhǎng)上下文交互。

該框架還引入了一個(gè)輕量化的獨(dú)立激活模型，無(wú)縫集成現(xiàn)有視頻大語(yǔ)言模型，實(shí)現(xiàn)主動(dòng)響應(yīng)功能。研究團(tuán)隊(duì)還推出了 Stream-IT 數(shù)據(jù)集，包含約 60 萬(wàn)個(gè)樣本，融合了視頻與文本序列，支持多樣化的指令格式，旨在提升流式視頻理解能力。

StreamBridge 在主流離線模型如 LLaVA-OV-7B、Qwen2-VL-7B 和 Oryx-1.5-7B 上進(jìn)行了測(cè)試。結(jié)果顯示，Qwen2-VL 在 OVO-Bench 和 Streaming-Bench 上的平均分分別提升至 71.30 和 77.04，超越了 GPT-4o 和 Gemini 1.5 Pro 等專有模型。

Oryx-1.5 也取得了顯著進(jìn)步，而 LLaVA-OV 性能略有下降。Stream-IT 數(shù)據(jù)集的微調(diào)進(jìn)一步提升了所有模型的表現(xiàn)，證明了 StreamBridge 在流式視頻理解領(lǐng)域的強(qiáng)大潛力。

免責(zé)聲明：本文僅代表作者個(gè)人觀點(diǎn)，與C114通信網(wǎng)無(wú)關(guān)。其原創(chuàng)性以及文中陳述文字和內(nèi)容未經(jīng)本站證實(shí)，對(duì)本文以及其中全部或者部分內(nèi)容、文字的真實(shí)性、完整性、及時(shí)性本站不作任何保證或承諾，請(qǐng)讀者僅作參考，并請(qǐng)自行核實(shí)相關(guān)內(nèi)容。

給作者點(diǎn)贊

0 VS 0

寫得不太好

相關(guān)鏈接

蘋果 AI 融合測(cè)試

ChatGPT 在航天器自主控制模擬競(jìng)賽中獲佳績(jī)，展現(xiàn)大語(yǔ)言模型新潛力
IT之家遠(yuǎn)洋7-8
微軟推出 Win11 設(shè)備端小型語(yǔ)言模型 Mu，助力系統(tǒng)設(shè)置自然語(yǔ)言搜索體驗(yàn)
IT之家遠(yuǎn)洋6-24
中國(guó)科學(xué)院科學(xué)家首次證實(shí)：大語(yǔ)言模型能像人類一樣“理解”事物
IT之家遠(yuǎn)洋6-11
中國(guó)基礎(chǔ)大語(yǔ)言模型市場(chǎng)格局初定：文心大模型功能最為領(lǐng)先
C114通信網(wǎng) 南山6-9

特別策劃