C114通信網(wǎng)  |  通信人家園

人工智能
2024/8/23 13:49

Meta 公司發(fā)布 Imagine Yourself:無(wú)需為特定對(duì)象微調(diào)的個(gè)性化圖像生成 AI 模型

IT之家  故淵

從社交媒體到虛擬現(xiàn)實(shí),個(gè)性化圖像生成因其在各種應(yīng)用中的潛力而日益受到關(guān)注。傳統(tǒng)方法通常需要針對(duì)每位用戶進(jìn)行大量調(diào)整,從而限制了效率和可擴(kuò)展性,為此 Meta 公司創(chuàng)新提出了“Imagine Yourself” AI 模型。

傳統(tǒng)個(gè)性化圖像生成方法挑戰(zhàn)

目前的個(gè)性化圖像生成方法通常依賴于為每個(gè)用戶調(diào)整模型,這種方法效率低下,而且缺乏通用性。雖然較新的方法試圖在不進(jìn)行調(diào)整的情況下實(shí)現(xiàn)個(gè)性化,但它們往往過(guò)度擬合,導(dǎo)致復(fù)制粘貼效應(yīng)。

Imagine Yourself 創(chuàng)新

Imagine Yourself 模型不需要針對(duì)特定用戶微調(diào),通過(guò)單一模式能夠滿足不同用戶的需求。

該模型解決了現(xiàn)有方法的不足之處,如傾向于毫無(wú)變化地復(fù)制參考圖像,從而為更通用、更方便用戶的圖像生成流程鋪平了道路。

Imagine Yourself 在保存身份、視覺(jué)質(zhì)量和及時(shí)對(duì)齊等關(guān)鍵領(lǐng)域表現(xiàn)出色,大大優(yōu)于之前的模型。

該模型的主要組成部分包括:

生成合成配對(duì)數(shù)據(jù)以鼓勵(lì)多樣性;

整合了三個(gè)文本編碼器和一個(gè)可訓(xùn)練視覺(jué)編碼器的完全并行注意力架構(gòu);

以及一個(gè)從粗到細(xì)的多階段微調(diào)過(guò)程

這些創(chuàng)新技術(shù)使該模型能夠生成高質(zhì)量、多樣化的圖像,同時(shí)保持強(qiáng)大的身份保護(hù)和文本對(duì)齊功能。

Imagine Yourself 使用可訓(xùn)練的 CLIP 補(bǔ)丁編碼器提取身份信息,并通過(guò)并行交叉注意模塊將其與文本提示整合在一起,準(zhǔn)確保存身份信息并對(duì)復(fù)雜的提示做出反應(yīng)。

該模型使用低階適配器(LoRA)僅對(duì)架構(gòu)的特定部分進(jìn)行微調(diào),從而保持較高的視覺(jué)質(zhì)量。

Imagine Yourself 的一個(gè)突出功能是生成合成配對(duì)(SynPairs)數(shù)據(jù)。通過(guò)創(chuàng)建包含表情、姿勢(shì)和光照變化的高質(zhì)量配對(duì)數(shù)據(jù),該模型可以更有效地學(xué)習(xí)并產(chǎn)生多樣化的輸出結(jié)果。

值得注意的是,在處理復(fù)雜的提示詞方面,與最先進(jìn)的模型相比,它在文本對(duì)齊方面實(shí)現(xiàn)了 +27.8% 的顯著改進(jìn)。

研究人員使用一組 51 種不同身份和 65 個(gè)提示對(duì) Imagine Yourself 進(jìn)行了定量評(píng)估,生成了 3315 幅圖像供人類評(píng)估。

該模型與最先進(jìn)的(SOTA)adapter-based 模型和 control-based 模型進(jìn)行了比對(duì),重點(diǎn)關(guān)注視覺(jué)吸引力、身份保持和提示對(duì)齊等指標(biāo)。

人工注釋根據(jù)身份相似性、及時(shí)對(duì)齊和視覺(jué)吸引力對(duì)生成的圖像進(jìn)行評(píng)分。與 adapter-based 模型相比,Imagine Yourself 在提示對(duì)齊方面有了 45.1% 的顯著提高,與基于控制的模型相比有了 30.8% 的提高,再次證明了它的優(yōu)越性。

Imagine Yourself 模型是個(gè)性化圖像生成領(lǐng)域的一大進(jìn)步。該模型無(wú)需針對(duì)特定對(duì)象進(jìn)行調(diào)整,并引入了合成配對(duì)數(shù)據(jù)生成和并行注意力架構(gòu)等創(chuàng)新組件,從而解決了以往方法所面臨的關(guān)鍵挑戰(zhàn)。

給作者點(diǎn)贊
0 VS 0
寫得不太好

免責(zé)聲明:本文僅代表作者個(gè)人觀點(diǎn),與C114通信網(wǎng)無(wú)關(guān)。其原創(chuàng)性以及文中陳述文字和內(nèi)容未經(jīng)本站證實(shí),對(duì)本文以及其中全部或者部分內(nèi)容、文字的真實(shí)性、完整性、及時(shí)性本站不作任何保證或承諾,請(qǐng)讀者僅作參考,并請(qǐng)自行核實(shí)相關(guān)內(nèi)容。

熱門文章
    最新視頻
    為您推薦

      C114簡(jiǎn)介 | 聯(lián)系我們 | 網(wǎng)站地圖 | 手機(jī)版

      Copyright©1999-2024 c114 All Rights Reserved | 滬ICP備12002291號(hào)

      C114 通信網(wǎng) 版權(quán)所有 舉報(bào)電話:021-54451141