北京時間今日凌晨,微軟在官網(wǎng)開源了多模態(tài) AI Agent 基礎模型 ——Magma。與傳統(tǒng) Agent 相比,Magma 具備跨數(shù)字、物理世界的多模態(tài)能力,能自動處理圖像、視頻、文本等不同類型數(shù)據(jù),此外,Magma 還能內(nèi)置了心理預測功能,增強了對未來視頻幀中時空動態(tài)的理解能力,能夠準確推測視頻中人物或物體的意圖和未來行為。
用戶可以用 Magma 來自動下電商訂單、查詢天氣;也可以自動操作實體機器人,或者在下真實象棋時獲得幫助。
根據(jù)官方介紹,Magma 能夠幫助 AI 驅動的助手或機器人理解周圍環(huán)境并采取相應行動。例如,它可以幫助家用機器人學習如何整理以前從未見過的物品,或幫助虛擬助手為不熟悉的任務生成逐步的用戶界面導航說明。
Magma 是能夠適應數(shù)字和物理環(huán)境中新任務的 VLA(IT之家注:視覺語言動作)基礎模型之一,能夠有效地從海量的公開視覺和語言數(shù)據(jù)中學習知識,從而融合語言、空間和時間智能,應對數(shù)字和物理世界中的復雜任務和環(huán)境。
附開源鏈接:https://microsoft.github.io/Magma/