C114通信網(wǎng)  |  通信人家園

人工智能
2025/2/26 08:47

微軟開源多模態(tài)AI Agent“Magma”:購物時可自動下單,還能推測視頻人物行為

IT之家  清源

北京時間今日凌晨,微軟在官網(wǎng)開源了多模態(tài) AI Agent 基礎模型 ——Magma。與傳統(tǒng) Agent 相比,Magma 具備跨數(shù)字、物理世界的多模態(tài)能力,能自動處理圖像、視頻、文本等不同類型數(shù)據(jù),此外,Magma 還能內(nèi)置了心理預測功能,增強了對未來視頻幀中時空動態(tài)的理解能力,能夠準確推測視頻中人物或物體的意圖和未來行為。

用戶可以用 Magma 來自動下電商訂單、查詢天氣;也可以自動操作實體機器人,或者在下真實象棋時獲得幫助。

根據(jù)官方介紹,Magma 能夠幫助 AI 驅動的助手或機器人理解周圍環(huán)境并采取相應行動。例如,它可以幫助家用機器人學習如何整理以前從未見過的物品,或幫助虛擬助手為不熟悉的任務生成逐步的用戶界面導航說明。

Magma 是能夠適應數(shù)字和物理環(huán)境中新任務的 VLA(IT之家注:視覺語言動作)基礎模型之一,能夠有效地從海量的公開視覺和語言數(shù)據(jù)中學習知識,從而融合語言、空間和時間智能,應對數(shù)字和物理世界中的復雜任務和環(huán)境。

附開源鏈接:https://microsoft.github.io/Magma/

給作者點贊
0 VS 0
寫得不太好

免責聲明:本文僅代表作者個人觀點,與C114通信網(wǎng)無關。其原創(chuàng)性以及文中陳述文字和內(nèi)容未經(jīng)本站證實,對本文以及其中全部或者部分內(nèi)容、文字的真實性、完整性、及時性本站不作任何保證或承諾,請讀者僅作參考,并請自行核實相關內(nèi)容。

熱門文章
    最新視頻
    為您推薦

      C114簡介 | 聯(lián)系我們 | 網(wǎng)站地圖 | 手機版

      Copyright©1999-2025 c114 All Rights Reserved | 滬ICP備12002291號

      C114 通信網(wǎng) 版權所有 舉報電話:021-54451141