從社交媒體到虛擬現(xiàn)實(shí),個(gè)性化圖像生成因其在各種應(yīng)用中的潛力而日益受到關(guān)注。傳統(tǒng)方法通常需要針對(duì)每位用戶進(jìn)行大量調(diào)整,從而限制了效率和可擴(kuò)展性,為此 Meta 公司創(chuàng)新提出了“Imagine Yourself” AI 模型。
傳統(tǒng)個(gè)性化圖像生成方法挑戰(zhàn)
目前的個(gè)性化圖像生成方法通常依賴于為每個(gè)用戶調(diào)整模型,這種方法效率低下,而且缺乏通用性。雖然較新的方法試圖在不進(jìn)行調(diào)整的情況下實(shí)現(xiàn)個(gè)性化,但它們往往過(guò)度擬合,導(dǎo)致復(fù)制粘貼效應(yīng)。
Imagine Yourself 創(chuàng)新
Imagine Yourself 模型不需要針對(duì)特定用戶微調(diào),通過(guò)單一模式能夠滿足不同用戶的需求。
該模型解決了現(xiàn)有方法的不足之處,如傾向于毫無(wú)變化地復(fù)制參考圖像,從而為更通用、更方便用戶的圖像生成流程鋪平了道路。
Imagine Yourself 在保存身份、視覺(jué)質(zhì)量和及時(shí)對(duì)齊等關(guān)鍵領(lǐng)域表現(xiàn)出色,大大優(yōu)于之前的模型。
該模型的主要組成部分包括:
生成合成配對(duì)數(shù)據(jù)以鼓勵(lì)多樣性;
整合了三個(gè)文本編碼器和一個(gè)可訓(xùn)練視覺(jué)編碼器的完全并行注意力架構(gòu);
以及一個(gè)從粗到細(xì)的多階段微調(diào)過(guò)程
這些創(chuàng)新技術(shù)使該模型能夠生成高質(zhì)量、多樣化的圖像,同時(shí)保持強(qiáng)大的身份保護(hù)和文本對(duì)齊功能。
Imagine Yourself 使用可訓(xùn)練的 CLIP 補(bǔ)丁編碼器提取身份信息,并通過(guò)并行交叉注意模塊將其與文本提示整合在一起,準(zhǔn)確保存身份信息并對(duì)復(fù)雜的提示做出反應(yīng)。
該模型使用低階適配器(LoRA)僅對(duì)架構(gòu)的特定部分進(jìn)行微調(diào),從而保持較高的視覺(jué)質(zhì)量。
Imagine Yourself 的一個(gè)突出功能是生成合成配對(duì)(SynPairs)數(shù)據(jù)。通過(guò)創(chuàng)建包含表情、姿勢(shì)和光照變化的高質(zhì)量配對(duì)數(shù)據(jù),該模型可以更有效地學(xué)習(xí)并產(chǎn)生多樣化的輸出結(jié)果。
值得注意的是,在處理復(fù)雜的提示詞方面,與最先進(jìn)的模型相比,它在文本對(duì)齊方面實(shí)現(xiàn)了 +27.8% 的顯著改進(jìn)。
研究人員使用一組 51 種不同身份和 65 個(gè)提示對(duì) Imagine Yourself 進(jìn)行了定量評(píng)估,生成了 3315 幅圖像供人類評(píng)估。
該模型與最先進(jìn)的(SOTA)adapter-based 模型和 control-based 模型進(jìn)行了比對(duì),重點(diǎn)關(guān)注視覺(jué)吸引力、身份保持和提示對(duì)齊等指標(biāo)。
人工注釋根據(jù)身份相似性、及時(shí)對(duì)齊和視覺(jué)吸引力對(duì)生成的圖像進(jìn)行評(píng)分。與 adapter-based 模型相比,Imagine Yourself 在提示對(duì)齊方面有了 45.1% 的顯著提高,與基于控制的模型相比有了 30.8% 的提高,再次證明了它的優(yōu)越性。
Imagine Yourself 模型是個(gè)性化圖像生成領(lǐng)域的一大進(jìn)步。該模型無(wú)需針對(duì)特定對(duì)象進(jìn)行調(diào)整,并引入了合成配對(duì)數(shù)據(jù)生成和并行注意力架構(gòu)等創(chuàng)新組件,從而解決了以往方法所面臨的關(guān)鍵挑戰(zhàn)。