當前位置:首頁(yè) > 設計 > 正文內容

終結擴散模型:OpenAI開(kāi)源新模型代碼,一步成圖,1秒18張

鶴壁UV印刷1年前 (2023-06-04)設計88
印刷廠(chǎng)直印●彩頁(yè)1000張只需要69元●名片5元每盒-更多報價(jià)?聯(lián)系電話(huà):138-1621-1622(微信同號)

機器之心報道

機器之心編輯部

擴散模型的時(shí)代結束了。

在 AI 畫(huà)圖的領(lǐng)域,人們一直關(guān)注的是擴散模型,人們一直在嘗試不斷改進(jìn),推出了 Stable Diffusion、Midjourney、DALL-E 等技術(shù),并在其基礎上構建應用。不過(guò)最近,OpenAI 提出的全新生成模型看起來(lái)要讓這一領(lǐng)域經(jīng)歷一場(chǎng)革命。

與高調推出 ChatGPT 、GPT-4 不同,這次 OpenAI 在上個(gè)月偷偷上傳了一篇論文《 Consistency Models 》,也不能說(shuō)是偷偷,只是這次沒(méi)有媒體大張旗鼓的報道,就顯得這項研究有些低調。論文內容主要是關(guān)于圖像生成領(lǐng)域的。

作者陣容也非常強大,有本科畢業(yè)于清華大學(xué)數理基礎科學(xué)班、目前在 OpenAI 擔任研究員的宋飏。宋飏將于 2024 年 1 月加入加州理工學(xué)院電子系(Electrical Engineering)和計算數學(xué)科學(xué)系(Computing and Mathematical Sciences)擔任助理教授。此外還包括 OpenAI 吉印通創(chuàng )始人、首席科學(xué)家 Ilya Sutskever。

前面我們已經(jīng)提到,OpenAI 的這項研究主要是圖像生成方面的,大家或多或少的都聽(tīng)過(guò)這項技術(shù),例如最近熱門(mén)的 Midjourney 和 Stable Diffusion,它們大都采用擴散模型,由于其生成的圖片效果驚艷,很多人都將其視為最好的工具。但擴散模型依賴(lài)于迭代生成過(guò)程,這導致此類(lèi)方法采樣速度緩慢,進(jìn)而限制了它們在實(shí)時(shí)應用中的潛力。

OpenAI 的這項研究就是為了克服這個(gè)限制,提出了 Consistency Models,這是一類(lèi)新的生成模型,無(wú)需對抗訓練即可快速獲得高質(zhì)量樣本。與此同時(shí),OpenAI 還發(fā)布了 Consistency Models 實(shí)現以及權重。

論文地址:

021yin.com/openai/consistency_models

具體而言,Consistency Models 支持快速 one-step 生成,同時(shí)仍然允許 few-step 采樣,以權衡計算量和樣本質(zhì)量。它們還支持零樣本(zero-shot)數據編輯,例如圖像修復、著(zhù)色和超分辨率,而無(wú)需針對這些任務(wù)進(jìn)行具體訓練。Consistency Models 可以用蒸餾預訓練擴散模型的方式進(jìn)行訓練,也可以作為獨立的生成模型進(jìn)行訓練。

研究團隊通過(guò)實(shí)驗證明 Consistency Models 在 one-step 和 few-step 生成中優(yōu)于現有的擴散模型蒸餾方法。例如,在 one-step 生成方面,Consistency Models 在 CIFAR-10 上實(shí)現了新的 SOTA FID 3.55,在 ImageNet 64 x 64 上為 6.20。當作為獨立生成模型進(jìn)行訓練時(shí),Consistency Models 在 CIFAR-10、ImageNet 64 x 64 和 LSUN 256 x 256 等標準基準上的表現也優(yōu)于 single-step、非對抗生成模型。

有網(wǎng)友將其視為擴散模型的有力競爭者!并表示 Consistency Models 無(wú)需對抗性訓練,這使得它們更容易訓練,不容易出現模式崩潰。

還有網(wǎng)友認為擴散模型的時(shí)代即將結束。

更有網(wǎng)友測試了生成速度,3.5 秒生成了 64 張分辨率 256×256 的圖片,平均一秒生成 18 張。

接下來(lái)我們看看 Consistency Model 零樣本圖像編輯能力:

圖 6a 展示了 Consistency Model 可以在測試時(shí)對灰度臥室圖像進(jìn)行著(zhù)色,即使它從未接受過(guò)著(zhù)色任務(wù)的訓練,可以看出,Consistency Model 的著(zhù)色效果非常自然,很逼真;圖 6b 展示了 Consistency Model 可以從低分辨率輸入生成高分辨率圖像,Consistency Model 將 32x32 分辨率圖像轉成 256x256 高分辨率圖像,和真值圖像(最右邊)看起來(lái)沒(méi)什么區別。圖 6c 證明了 Consistency Model 可以根據人類(lèi)要求生成圖像(生成了有床和柜子的臥室)。

Consistency Model 圖像修復功能:左邊是經(jīng)過(guò)掩碼的圖像,中間是 Consistency Model 修復的圖像,最右邊是參考圖像:

Consistency Model 生成高分辨率圖像:左側為分辨率 32 x 32 的下采樣圖像、中間為 Consistency Model 生成的 256 x 256 圖像,右邊為分辨率為 256x 256 的真值圖像。相比于初始圖像,Consistency Model 生成的圖像更清晰。

模型介紹

Consistency Models 作為一種生成模型,核心設計思想是支持 single-step 生成,同時(shí)仍然允許迭代生成,支持零樣本(zero-shot)數據編輯,權衡了樣本質(zhì)量與計算量。

我們來(lái)看一下 Consistency Models 的定義、參數化和采樣。

首先 Consistency Models 建立在連續時(shí)間擴散模型中的概率流 (PF) 常微分方程 (ODE) 之上。如下圖 1 所示,給定一個(gè)將數據平滑地轉換為噪聲的 PF ODE,Consistency Models 學(xué)會(huì )在任何時(shí)間步(time step)將任意點(diǎn)映射成軌跡的初始點(diǎn)以進(jìn)行生成式建模。Consistency Models 一個(gè)顯著(zhù)的特性是自洽性(self-consistency):同一軌跡上的點(diǎn)會(huì )映射到相同的初始點(diǎn)。這也是模型被命名為 Consistency Models(一致性模型)的原因。

Consistency Models 允許通過(guò)僅使用 one network 評估轉換隨機噪聲向量(ODE 軌跡的端點(diǎn),例如圖 1 中的 x_T)來(lái)生成數據樣本(ODE 軌跡的初始點(diǎn),例如圖 1 中的 x_0)。更重要的是,通過(guò)在多個(gè)時(shí)間步鏈接 Consistency Models 模型的輸出,該方法可以提高樣本質(zhì)量,并以更多計算為代價(jià)執行零樣本數據編輯,類(lèi)似于擴散模型的迭代優(yōu)化。

在訓練方面,研究團隊為 Consistency Models 提供了兩種基于自洽性的方法。第一種方法依賴(lài)于使用數值 ODE 求解器和預訓練擴散模型來(lái)生成 PF ODE 軌跡上的相鄰點(diǎn)對。通過(guò)最小化這些點(diǎn)對的模型輸出之間的差異,該研究有效地將擴散模型蒸餾為 Consistency Models,從而允許通過(guò) one network 評估生成高質(zhì)量樣本。

第二種方法則是完全消除了對預訓練擴散模型的依賴(lài),可獨立訓練 Consistency Models。這種方法將 Consistency Models 定位為一類(lèi)獨立的生成模型。

值得注意的是,這兩種訓練方法都不需要對抗訓練,并且都允許 Consistency Models 靈活采用神經(jīng)網(wǎng)絡(luò )架構。

實(shí)驗及結果

實(shí)驗數據集包括 CIFAR-10 、ImageNet 64x 64 、LSUN Bedroom 256 x 256 、 LSUN Cat 256 x 256。首先該研究在 CIFAR-10 吉印通行了一系列實(shí)驗。結果圖 3 所示。

Few-Step 圖像生成

接著(zhù)該研究在 ImageNet 64x 64、LSUN Bedroom 256 x 256 數據集吉印通行實(shí)驗,結果如圖 4 所示。

表 1 表明,CD( consistency distillation )優(yōu)于 Knowledge Distillation、DFNO 等方法。

表 1 和表 2 表明 CT( consistency training ) 在 CIFAR-10 上的表現優(yōu)于所有 single-step、非對抗性生成模型,即 VAE 和歸一化流。此外,CT 在不依賴(lài)蒸餾的情況下獲得與 PD ( progressive distillation )相當的質(zhì)量,用于 single-step 生成。

圖 5 提供了 EDM (Karras et al., 2022) 樣本(頂部)、single-step CT 樣本(中)和 two-step CT 樣本(底部)。

了解更多內容,請參考原論文。

收藏0

發(fā)表評論

訪(fǎng)客

看不清,換一張

◎歡迎參與討論,請在這里發(fā)表您的看法和觀(guān)點(diǎn)。
亚洲午夜av天堂_亚洲产国久久无码_亚洲欧美制服丝袜精品久久_91精品成人国产在线不卡