10月23日消息,科技媒體TheDecoder昨日(10月22日)發(fā)布博文,報(bào)道稱谷歌DeepMind團(tuán)隊(duì)攜手麻省理工學(xué)院(MIT),推出了全新的“Fluid”模型,在規(guī)模達(dá)到105億參數(shù)時(shí)候,能取得最佳的文生圖效果。
目前在文生圖領(lǐng)域,行業(yè)內(nèi)的一個(gè)共識(shí)是自回歸模型(AutoregressiveModels)不如擴(kuò)散模型(DiffusionModels)。
簡要介紹下這兩種模型:
擴(kuò)散模型(DiffusionModels):這是一種最近非常熱門的內(nèi)容生成技術(shù),它模擬的是信號(hào)從噪聲中逐漸恢復(fù)的過程。擴(kuò)散模型通過迭代地減少隨機(jī)噪聲來生成高質(zhì)量的圖像、文本和其他形式的數(shù)據(jù)。比如應(yīng)用于圖像生成領(lǐng)域中的DDPM(離散擴(kuò)散概率模型)及其變體就有很高的關(guān)注度。
自回歸模型(AutoregressiveModels):自回歸模型預(yù)測序列中的下一個(gè)元素時(shí),依賴于前面的元素。在文本生成領(lǐng)域,像基于Decoder-only的GPT系列(如GPT-3、GPT-4)就是典型的自回歸模型,它們逐詞預(yù)測下一個(gè)詞,從而生成連貫的文本段落。
谷歌DeepMind和MIT團(tuán)隊(duì)通過深入研究,發(fā)現(xiàn)了使用連續(xù)tokens(非離散tokens)和采用隨機(jī)生成順序(非固定順序)兩個(gè)關(guān)鍵設(shè)計(jì)因素,顯著提高了自回歸模型的性能和可擴(kuò)展性。
團(tuán)隊(duì)表示在離散tokens為每個(gè)圖像區(qū)域分配一個(gè)來自有限詞匯的代碼,這會(huì)導(dǎo)致信息丟失,而連續(xù)tokens可以更精確地圖像信息存儲(chǔ),減少信息丟失。這讓模型能夠更好地重建圖像,提高視覺質(zhì)量。
此外大多數(shù)自回歸模型以固定順序生成圖像,而Fluid采用隨機(jī)生成順序,讓模型能夠在每一步預(yù)測任意位置的多個(gè)像素,這種方法在理解整體圖像結(jié)構(gòu)時(shí)表現(xiàn)更為出色。
Fluid模型結(jié)合了連續(xù)標(biāo)記和隨機(jī)生成順序后,當(dāng)其規(guī)模擴(kuò)大到105億參數(shù)時(shí),F(xiàn)luid在重要基準(zhǔn)測試中超越了StableDiffusion3擴(kuò)散模型和谷歌此前的Parti自回歸模型。
與Parti相比,F(xiàn)luid顯示出顯著的改進(jìn):擁有200億參數(shù)的Parti在MS-COCO上達(dá)到了7.23的FID分?jǐn)?shù),而僅有3.69億參數(shù)的小型Fluid模型卻達(dá)到了相同的分?jǐn)?shù)。
分享到微信 ×
打開微信,點(diǎn)擊底部的“發(fā)現(xiàn)”,
使用“掃一掃”即可將網(wǎng)頁分享至朋友圈。