谷歌研究院發(fā)文,公布了“Titans”系列模型架構(gòu),相應(yīng)模型架構(gòu)最大的特點是采用“仿生設(shè)計”,結(jié)合了短期記憶、長期記憶和注意力機制,支持超過 200 萬個 Token 的上下文長度,目前相關(guān)論文已發(fā)布在 arXiv 上,谷歌計劃未來將 Titans 相關(guān)技術(shù)開源。
目前業(yè)界流行的 Transformer 模型架構(gòu)雖然在大多數(shù)場景表現(xiàn)優(yōu)秀,但其上下文窗口(Window)長度的限制,通常僅為幾千到幾萬個 Token,這使得它們在處理長文本、多輪對話或需要大規(guī)模上下文記憶的任務(wù)中,往往無法保持語義連貫性和信息準(zhǔn)確性。
而谷歌這一 Titans 系列模型架構(gòu)通過引入深度神經(jīng)長期記憶模塊(Neural Long-Term Memory Module)有效解決了相應(yīng)問題,其設(shè)計靈感號稱來自人類的記憶系統(tǒng),結(jié)合了短期記憶的快速反應(yīng)與長期記憶的持久特性,并通過注意力機制來著重執(zhí)行當(dāng)前的上下文(著重于用戶即時輸入的提示詞,并保留對于以往提示詞的準(zhǔn)確記憶)。
IT之家參考論文獲悉,Titans 具有三種架構(gòu)設(shè)計變體,分別是 Memory as a Context(MAC)、Memory as a Gate(MAG)和 Memory as a Layer(MAL),可以根據(jù)不同的任務(wù)需求整合短期與長期記憶。其中“MAC”架構(gòu)變體將長期記憶作為上下文的一部分,允許注意力機制動態(tài)結(jié)合歷史信息與當(dāng)前數(shù)據(jù),適合處理需要詳細歷史上下文的任務(wù)。“MAG”架構(gòu)變體則根據(jù)任務(wù)需求,調(diào)整實時數(shù)據(jù)與歷史信息的重要性比例,專注于當(dāng)前最相關(guān)的信息。
谷歌重點強調(diào)了“MAL”架構(gòu)變體,該架構(gòu)主要將記憶模塊設(shè)計為深度網(wǎng)絡(luò)的一層,也就是從模型設(shè)計層面,直接將用戶的歷史記錄和現(xiàn)在輸入的上下文內(nèi)容進行固定壓縮,之后交由模型的注意力模塊處理,因此效率相對較高,但輸出內(nèi)容效果不如“MAC”和“MAG”變體。
谷歌聲稱,Titans 系列模型架構(gòu)在長序列處理任務(wù)中的表現(xiàn)明顯優(yōu)于現(xiàn)有模型,無論是語言建模還是時間序列預(yù)測,Titans 在準(zhǔn)確性和效率上都展現(xiàn)了“壓倒性優(yōu)勢”,甚至在某些場景中超越了如 GPT-4 等具有數(shù)十倍參數(shù)的模型。