微軟研究院昨日(5 月 19 日)發(fā)布博文,介紹了 Magentic-UI 開源研究原型。這是一款以人為中心的 AI 智能體,旨在通過網(wǎng)頁瀏覽器,實(shí)時(shí)協(xié)助用戶完成復(fù)雜的網(wǎng)絡(luò)任務(wù)。
微軟表示現(xiàn)代生產(chǎn)力高度依賴網(wǎng)絡(luò),搜索信息、填寫表單還是操作儀表板等許多任務(wù)仍需手動(dòng)操作,耗時(shí)且重復(fù)。而 Magentic-UI 通過以人為中心的理念,協(xié)助用戶處理這些任務(wù),并為研究人員提供平臺(tái),探索人機(jī)協(xié)作和 AI 智能體監(jiān)督機(jī)制的開放性問題。
不同于追求完全自主的 AI 工具,Magentic-UI 強(qiáng)調(diào)透明和可控,確保用戶在任務(wù)執(zhí)行中擁有主導(dǎo)權(quán)。
Magentic-UI 基于 2024 年發(fā)布的 Magentic-One 多智能體系統(tǒng),并由 AutoGen 框架驅(qū)動(dòng),具備協(xié)同規(guī)劃(co-planning)、協(xié)同任務(wù)(co-tasking)、行為防護(hù)(action guards)和計(jì)劃學(xué)習(xí)(plan learning)四大核心功能。
在協(xié)同規(guī)劃中,用戶可通過計(jì)劃編輯器修改 AI 制定的步驟;在任務(wù)執(zhí)行中,用戶能隨時(shí)暫停系統(tǒng)并提供反饋,甚至直接接管瀏覽器操作。
行為防護(hù)機(jī)制要求 AI 在執(zhí)行可能不可逆的操作前獲得用戶批準(zhǔn),而計(jì)劃學(xué)習(xí)功能則讓 AI 從過往任務(wù)中學(xué)習(xí)并保存計(jì)劃,提升未來效率。
IT之家援引博文介紹,Magentic-UI 的底層系統(tǒng)由多個(gè)專業(yè)智能體組成,包括負(fù)責(zé)規(guī)劃和任務(wù)分配的 Orchestrator、操控瀏覽器的 WebSurfer、執(zhí)行代碼的 Coder 以及處理文件的 FileSurfer。
系統(tǒng)采用 Docker 沙箱技術(shù),防止影響主機(jī)環(huán)境。此外,用戶可設(shè)置網(wǎng)站白名單,限制 AI 訪問范圍,并隨時(shí)中斷任務(wù)執(zhí)行。微軟還通過紅隊(duì)評(píng)估測試了 Magentic-UI 的安全性,成功抵御了跨站提示注入和釣魚攻擊等多重威脅。