C114通信網(wǎng)  |  通信人家園

人工智能
2024/12/13 08:48

谷歌發(fā)布多模態(tài)直播API:解鎖看、聽、說,開啟音視頻交互新體驗(yàn)

IT之家  故淵

谷歌昨日在發(fā)布 Gemini 2.0 的同時(shí),還發(fā)布了全新的多模態(tài)直播(Multimodal Live)API,幫助開發(fā)人員開發(fā)具有實(shí)時(shí)音頻和視頻流功能的應(yīng)用程序。

該 API 實(shí)現(xiàn)了低延遲、雙向的文本、音頻和視頻交互,以音頻和文本形式輸出,帶來更自然流暢、如同人類對話般的交互體驗(yàn)。用戶可以隨時(shí)打斷模型,并通過共享攝像頭輸入或屏幕錄像與其進(jìn)行互動(dòng),就內(nèi)容提問。

該模型的視頻理解功能擴(kuò)展了通信模式,用戶能夠使用攝像頭實(shí)時(shí)拍攝或共享桌面并提出相關(guān)問題。該 API 已經(jīng)向開發(fā)者開放,同時(shí)也向用戶提供了一個(gè)多模態(tài)實(shí)時(shí)助手的演示應(yīng)用。IT之家附上演示如下:

該 API 支持集成多種工具,開發(fā)者只需一次 API 調(diào)用,即可完成復(fù)雜的用例。

給作者點(diǎn)贊
0 VS 0
寫得不太好

免責(zé)聲明:本文僅代表作者個(gè)人觀點(diǎn),與C114通信網(wǎng)無關(guān)。其原創(chuàng)性以及文中陳述文字和內(nèi)容未經(jīng)本站證實(shí),對本文以及其中全部或者部分內(nèi)容、文字的真實(shí)性、完整性、及時(shí)性本站不作任何保證或承諾,請讀者僅作參考,并請自行核實(shí)相關(guān)內(nèi)容。

熱門文章
    最新視頻
    為您推薦

      C114簡介 | 聯(lián)系我們 | 網(wǎng)站地圖 | 手機(jī)版

      Copyright©1999-2024 c114 All Rights Reserved | 滬ICP備12002291號(hào)

      C114 通信網(wǎng) 版權(quán)所有 舉報(bào)電話:021-54451141