C114通信網(wǎng)  |  通信人家園

人工智能
2024/8/2 15:59

最強開源文生圖模型一夜易主:SD原班人馬打造,要發(fā)SOTA視頻生成模型

智東西  

最強開源文生圖模型一夜易主!

昨日晚間,開源文生圖模型霸主 Stable Diffusion原班人馬,宣布推出全新的圖像生成模型 FLUX.1。

FLUX.1 包含專業(yè)版、開發(fā)者版、快速版三種模型,其中前兩款模型擊敗 SD3-Ultra 等主流模型,較小規(guī)模的 FLUX.1 [schnell] 也超越了 Midjourney v6.0、DALL E 3 等更大的模型。

  ▲ FLUX.1 ELO 分數(shù)與主流模型對比

FLUX.1 在文字生成、復雜指令遵循人手生成上具備優(yōu)勢。以下是其最強的專業(yè)版模型 FLUX.1 [pro] 生成圖像示例,可以看到即使是生成大段的文字、多個人物,也沒有出現(xiàn)字符、人手等細節(jié)上的錯誤。

  ▲ FLUX.1 [pro] 生成圖像示例

FLUX.1 現(xiàn)已在開源平臺 Replicate 上可用,以下是我用提示詞“世界上最小的黑森林蛋糕,手指大小,被黑森林的樹木包圍”,在三款模型上生成的圖像,用時分別為 17.5s、12.2s、1.5s。

  ▲ 三款模型生成對比

FLUX.1 同時開放了 API(應用程序接口),按圖像張數(shù)定價,三款模型的價格依次為每張圖片 0.055 美元、0.03 美元、0.003 美元(約合人民幣 0.4 元、0.22 元、0.022 元)。

FLUX.1 背后的公司名為 Black Forest Labs(黑森林實驗室),由 Stable Diffusion 原班人馬、多位 Stability AI 前研究員成立。與 Stability AI 類似,黑森林致力于研發(fā)優(yōu)質多模態(tài)模型并開源,目前已完成 3100 萬美元(約合人民幣 2.25 億元)的種子輪融資。

黑森林還預告不久之后將發(fā)布 SOTA(當前技術指標第一)視頻模型。從其放出的 Demo 來看,無論是流暢度、穩(wěn)定性還是物理模擬都達到第一梯隊水平,該公司或許會成為視頻生成領域的一匹黑馬。

  ▲ 視頻生成模型預告

三款模型試用地址:

https://replicate.com/black-forest-labs/flux-pro

https://replicate.com/black-forest-labs/flux-dev

https://replicate.com/black-forest-labs/flux-schnell

擅長生成文字、人手,三種模型規(guī)模秒級生成

FLUX.1 在視覺質量、圖像細節(jié)和輸出多樣性等方面性能優(yōu)越,其具有三大特點:文字生成、復雜構圖、人手描繪

文字的生成在圖像、視頻生成中非常重要,許多模型容易混淆看起來相似的字母。FLUX.1 可以處理重復字母的棘手單詞,例如生成一個黑森林 Flux Schnell 蛋糕

  ▲ 黑森林 Flux Schnell 蛋糕

在構圖方面,F(xiàn)LUX.1 擅長按照圖像中事物應該位于哪里等復雜指示進行操作。例如,F(xiàn)LUX.1 完美地演繹了這段提示詞:三個魔法巫師站在一張黃色桌子上,每個巫師都拿著一個標志。左邊,一個穿著黑色長袍的巫師拿著一個寫著“AI”的標志;中間,一個穿著紅色長袍的女巫拿著一個寫著“is”的標志;在右邊,一個穿著藍色長袍的巫師拿著一個寫著“cool”的標志。

  ▲ 復雜構圖

人手一直是多模態(tài)生成模型的重災區(qū)。FLUX.1 生成的人手圖像雖然還不夠完美,但實現(xiàn)了很大的進步。

  ▲ 人手

FLUX.1 共有專業(yè)版、開發(fā)者版、快速版三種版本。

其中,FLUX.1[pro]是最先進的一個版本,具有頂級的即時跟蹤、視覺質量、圖像細節(jié)和輸出多樣性,面向專業(yè)用戶提供定制的企業(yè)解決方案。

  ▲ FLUX.1 [pro] 生成圖像示例

FLUX.1[dev]面向非商業(yè)應用,它從 FLUX.1 [pro] 提煉而來,具有相似的質量和能力,同時比相同尺寸的標準模型更高效。

  ▲ FLUX.1 [dev] 生成圖像示例

FLUX.1[schnell]是三款模型中最快的,專為本地開發(fā)和個人使用而定制,并根據(jù) Apache 2.0 標準許可公開提供。

  ▲ FLUX.1 [schnell] 生成圖像示例

FLUX.1 現(xiàn)已在開源平臺 Replicate 上可用,只需一行代碼即可在云端運行,用戶也可以下載模型權重并以編程方式運行。FLUX.1 的 API 也同步開放,三款模型的價格依次為每張圖片 0.055 美元、0.03 美元、0.003 美元(約合人民幣 0.4 元、0.22 元、0.022 元)。

擊敗 MJ V6、DALL E 3,技術報告即將發(fā)布

性能方面,F(xiàn)LUX.1 經(jīng)過特別微調,在預訓練中保留了整個輸出多樣性,在指令遵守、視覺質量、尺寸 / 長寬變化等多個方面樹立了新標準。

其中 FLUX.1 [pro] 和 [dev] 兩款模型,在 5 項測評標準中都超過了 Midjourney v6.0、DALL E 3 和 SD3-Ultra 等熱門模型。

FLUX.1 [schnell] 作為輕量級模型,不僅優(yōu)于同類競爭對手,還優(yōu)于 Midjourney v6.0、DALL E 3 等強大的非蒸餾模型。

  ▲ FLUX.1 性能與主流模型對比

此外,所有 FLUX.1 模型均支持 0.1 和 2.0 百萬像素的多種寬高比和分辨率。

  ▲ 寬高比 / 分辨率變化

如此強大的性能是怎么做到的?

在模型架構上,F(xiàn)LUX.1 采用基于多模態(tài)和并行擴散 Transformer 模塊的混合架構,并將其擴展到 12B 參數(shù)。

團隊通過建立流匹配(Flow Matching)來改進最先進的擴散模型,并通過結合旋轉位置嵌入(Rotary Position Embedding)和并行注意力層,來提高模型性能和硬件效率。更詳細的技術報告將在不久后發(fā)布。

SD 原班人馬,2.25 億種子輪,要發(fā) SOTA 視頻模型

黑森林實驗室由 Stable Diffusion 的創(chuàng)始團隊成立,該團隊此前的工作還包括高質量圖像生成模型 VQGAN、視頻生成模型 Stable Video Diffusion 等。

Stable Diffusion 最初的 5 位作者中,4 位曾加入 Stability AI 并持續(xù)開發(fā) SD 后續(xù)版本的成員,包括 Robin Rombach、Andreas Blattmann、Dominik Lorenz 以及 Patrick Esser,都在黑森林實驗室的創(chuàng)始團隊中。

  ▲ Stable Diffusion 作者、黑森林實驗室創(chuàng)始團隊

該團隊稱,其核心信念是開發(fā)廣泛可訪問的模型,促進研究界和學術界的創(chuàng)新和協(xié)作,并提高模型透明度。

黑森林實驗室宣布已完成 3100 萬美元(約合人民幣 2.25 億元)的種子輪融資,由知名風投機構 a16z(Andreessen Horowitz)領投,VR 制造商 Oculus 的 CEO Brendan Iribe、創(chuàng)企孵化器 YC 的 CEO 陳嘉興(Garry Tan)、英偉達研究員 Timo Aila 等專家及 AI 公司跟投,還收到了來自 General Catalyst 等一線基金的后續(xù)投資。

該團隊的顧問委員會,包括在內容創(chuàng)作行業(yè)擁有豐富經(jīng)驗的前迪士尼總裁 Michael Ovitz,以及神經(jīng)風格轉換的先驅 Matthias Bethge 教授。

剛剛創(chuàng)業(yè)的 AI 大神安德烈 卡帕西(Andrej Karpathy)為黑森林團隊送上祝福,并稱“開源的 FLUX.1 圖像生成模型看起來非常強大”。

  ▲ 卡帕西評論

創(chuàng)始團隊的前領導 ——Stability AI 前 CEO 埃馬德 莫斯塔克(Emad Mostaque)也發(fā)來賀電,還說“之前能與他們合作是我的榮幸,我相信他們會繼續(xù)在生成每一個像素的旅程中突破界限”。

  ▲ 莫斯塔克評論

在下一步的工作上,黑森林預告將發(fā)布一款 SOTA 文生視頻模型,“讓所有人都能將文本轉為視頻”。該模型將建立在 FLUX.1 的基礎上,“以高清和前所未有的速度實現(xiàn)精確創(chuàng)作和編輯”。

  ▲ 視頻生成模型預告

結語:多模態(tài)大模型領域黑馬涌現(xiàn)

在眾多大廠、創(chuàng)企狂卷文生視頻之際,文生圖領域突然迎來黑馬。“橫空出世”的 FLUX.1 的不僅展現(xiàn)出卓越的性能,在文字生成、復雜構圖、人手描繪等方面突破難關,還以多樣化的版本滿足不同用戶的需求。

黑森林實驗室憑借著 Stable Diffusion 原班人馬的強大實力,獲得了豐厚的種子輪融資,也吸引了眾多行業(yè)大咖的關注與支持。其后續(xù)將發(fā)布的視頻模型,又將為文生視頻領域注入新的活力。

給作者點贊
0 VS 0
寫得不太好

免責聲明:本文僅代表作者個人觀點,與C114通信網(wǎng)無關。其原創(chuàng)性以及文中陳述文字和內容未經(jīng)本站證實,對本文以及其中全部或者部分內容、文字的真實性、完整性、及時性本站不作任何保證或承諾,請讀者僅作參考,并請自行核實相關內容。

熱門文章
    最新視頻
    為您推薦

      C114簡介 | 聯(lián)系我們 | 網(wǎng)站地圖 | 手機版

      Copyright©1999-2024 c114 All Rights Reserved | 滬ICP備12002291號

      C114 通信網(wǎng) 版權所有 舉報電話:021-54451141