2024/8/23 13:49

Meta 公司發(fā)布 Imagine Yourself：無(wú)需為特定對(duì)象微調(diào)的個(gè)性化圖像生成 AI 模型

IT之家故淵

從社交媒體到虛擬現(xiàn)實(shí)，個(gè)性化圖像生成因其在各種應(yīng)用中的潛力而日益受到關(guān)注。傳統(tǒng)方法通常需要針對(duì)每位用戶進(jìn)行大量調(diào)整，從而限制了效率和可擴(kuò)展性，為此 Meta 公司創(chuàng)新提出了“Imagine Yourself” AI 模型。

傳統(tǒng)個(gè)性化圖像生成方法挑戰(zhàn)

目前的個(gè)性化圖像生成方法通常依賴于為每個(gè)用戶調(diào)整模型，這種方法效率低下，而且缺乏通用性。雖然較新的方法試圖在不進(jìn)行調(diào)整的情況下實(shí)現(xiàn)個(gè)性化，但它們往往過(guò)度擬合，導(dǎo)致復(fù)制粘貼效應(yīng)。

Imagine Yourself 創(chuàng)新

Imagine Yourself 模型不需要針對(duì)特定用戶微調(diào)，通過(guò)單一模式能夠滿足不同用戶的需求。

該模型解決了現(xiàn)有方法的不足之處，如傾向于毫無(wú)變化地復(fù)制參考圖像，從而為更通用、更方便用戶的圖像生成流程鋪平了道路。

Imagine Yourself 在保存身份、視覺(jué)質(zhì)量和及時(shí)對(duì)齊等關(guān)鍵領(lǐng)域表現(xiàn)出色，大大優(yōu)于之前的模型。

該模型的主要組成部分包括：

生成合成配對(duì)數(shù)據(jù)以鼓勵(lì)多樣性；

整合了三個(gè)文本編碼器和一個(gè)可訓(xùn)練視覺(jué)編碼器的完全并行注意力架構(gòu)；

以及一個(gè)從粗到細(xì)的多階段微調(diào)過(guò)程

這些創(chuàng)新技術(shù)使該模型能夠生成高質(zhì)量、多樣化的圖像，同時(shí)保持強(qiáng)大的身份保護(hù)和文本對(duì)齊功能。

Imagine Yourself 使用可訓(xùn)練的 CLIP 補(bǔ)丁編碼器提取身份信息，并通過(guò)并行交叉注意模塊將其與文本提示整合在一起，準(zhǔn)確保存身份信息并對(duì)復(fù)雜的提示做出反應(yīng)。

該模型使用低階適配器（LoRA）僅對(duì)架構(gòu)的特定部分進(jìn)行微調(diào)，從而保持較高的視覺(jué)質(zhì)量。

Imagine Yourself 的一個(gè)突出功能是生成合成配對(duì)（SynPairs）數(shù)據(jù)。通過(guò)創(chuàng)建包含表情、姿勢(shì)和光照變化的高質(zhì)量配對(duì)數(shù)據(jù)，該模型可以更有效地學(xué)習(xí)并產(chǎn)生多樣化的輸出結(jié)果。

值得注意的是，在處理復(fù)雜的提示詞方面，與最先進(jìn)的模型相比，它在文本對(duì)齊方面實(shí)現(xiàn)了 +27.8% 的顯著改進(jìn)。

研究人員使用一組 51 種不同身份和 65 個(gè)提示對(duì) Imagine Yourself 進(jìn)行了定量評(píng)估，生成了 3315 幅圖像供人類評(píng)估。

該模型與最先進(jìn)的（SOTA）adapter-based 模型和 control-based 模型進(jìn)行了比對(duì)，重點(diǎn)關(guān)注視覺(jué)吸引力、身份保持和提示對(duì)齊等指標(biāo)。

人工注釋根據(jù)身份相似性、及時(shí)對(duì)齊和視覺(jué)吸引力對(duì)生成的圖像進(jìn)行評(píng)分。與 adapter-based 模型相比，Imagine Yourself 在提示對(duì)齊方面有了 45.1% 的顯著提高，與基于控制的模型相比有了 30.8% 的提高，再次證明了它的優(yōu)越性。

Imagine Yourself 模型是個(gè)性化圖像生成領(lǐng)域的一大進(jìn)步。該模型無(wú)需針對(duì)特定對(duì)象進(jìn)行調(diào)整，并引入了合成配對(duì)數(shù)據(jù)生成和并行注意力架構(gòu)等創(chuàng)新組件，從而解決了以往方法所面臨的關(guān)鍵挑戰(zhàn)。

給作者點(diǎn)贊

0 VS 0

寫得不太好

免責(zé)聲明：本文僅代表作者個(gè)人觀點(diǎn)，與C114通信網(wǎng)無(wú)關(guān)。其原創(chuàng)性以及文中陳述文字和內(nèi)容未經(jīng)本站證實(shí)，對(duì)本文以及其中全部或者部分內(nèi)容、文字的真實(shí)性、完整性、及時(shí)性本站不作任何保證或承諾，請(qǐng)讀者僅作參考，并請(qǐng)自行核實(shí)相關(guān)內(nèi)容。

相關(guān)鏈接

整合