2024/12/13 08:48

谷歌發(fā)布多模態(tài)直播API：解鎖看、聽、說，開啟音視頻交互新體驗(yàn)

IT之家故淵

谷歌昨日在發(fā)布 Gemini 2.0 的同時(shí)，還發(fā)布了全新的多模態(tài)直播（Multimodal Live）API，幫助開發(fā)人員開發(fā)具有實(shí)時(shí)音頻和視頻流功能的應(yīng)用程序。

該 API 實(shí)現(xiàn)了低延遲、雙向的文本、音頻和視頻交互，以音頻和文本形式輸出，帶來更自然流暢、如同人類對話般的交互體驗(yàn)。用戶可以隨時(shí)打斷模型，并通過共享攝像頭輸入或屏幕錄像與其進(jìn)行互動(dòng)，就內(nèi)容提問。

該模型的視頻理解功能擴(kuò)展了通信模式，用戶能夠使用攝像頭實(shí)時(shí)拍攝或共享桌面并提出相關(guān)問題。該 API 已經(jīng)向開發(fā)者開放，同時(shí)也向用戶提供了一個(gè)多模態(tài)實(shí)時(shí)助手的演示應(yīng)用。IT之家附上演示如下：

該 API 支持集成多種工具，開發(fā)者只需一次 API 調(diào)用，即可完成復(fù)雜的用例。

給作者點(diǎn)贊

0 VS 0

寫得不太好

免責(zé)聲明：本文僅代表作者個(gè)人觀點(diǎn)，與C114通信網(wǎng)無關(guān)。其原創(chuàng)性以及文中陳述文字和內(nèi)容未經(jīng)本站證實(shí)，對本文以及其中全部或者部分內(nèi)容、文字的真實(shí)性、完整性、及時(shí)性本站不作任何保證或承諾，請讀者僅作參考，并請自行核實(shí)相關(guān)內(nèi)容。

相關(guān)鏈接

中興通訊聯(lián)合合作伙伴成立開放智算產(chǎn)業(yè)聯(lián)盟，加速AI及大模型行業(yè)落地
C114通信網(wǎng) 12-20
最新研究：AI版本越老越糊涂
快科技秋白12-20
“高校人人學(xué)AI”時(shí)代，升級(jí)AI通識(shí)教育老師先卷起來
C114通信網(wǎng) 12-20
阿爾特曼暗示OpenAI明日發(fā)布o(jì)3，新一代AI推理王者模型
IT之家故淵12-20

谷歌發(fā)布多模態(tài)直播API：解鎖看、聽、說，開啟音視頻交互新體驗(yàn)

谷歌發(fā)布多模態(tài)直播API：解鎖看、聽、說，開啟音視頻交互新體驗(yàn)