原文來(lái)源:機(jī)器之心
圖片來(lái)源:由無(wú)界 AI生成
AI 幫你成為百變星君。
這一次,Yann LeCun 首次躋身「百變大咖」。身穿鋼鐵俠的衣服、戴著酷酷的墨鏡面無(wú)表情地注視著你,一身古裝在故宮門前打卡留念……
就連本人也出來(lái)轉(zhuǎn)發(fā)并喊話,「左下角這幅文藝復(fù)興時(shí)期的畫,是我的最愛?!?/p>
性感女神寡姐身穿紫色巫師服注視著遠(yuǎn)方,還可以戴著圣誕帽和你對(duì)視:
身穿太空服的奧特曼看起來(lái)萌萌的,把頭發(fā)染成紅色也毫無(wú)違和感
上述研究便是來(lái)自南開大學(xué)、騰訊等機(jī)構(gòu)提出 PhotoMaker,這是一種高效的個(gè)性化文本到圖像生成方法。相關(guān)論文《PhotoMaker:Customizing Realistic Human Photos via Stacked ID Embedding 》于去年 12 月放出,剛剛,項(xiàng)目也已經(jīng)開源。不到一天時(shí)間,星標(biāo)量高達(dá) 650+。
項(xiàng)目地址:https://github.com/TencentARC/PhotoMaker?continueFlag=98363d6ac1beafe515190e50d2c40427
PhotoMaker 除了生成逼真的人像,還能進(jìn)行其他風(fēng)格的生成,如草圖、漫畫、動(dòng)畫等。
不同人物身份也能進(jìn)行混合,創(chuàng)造出一個(gè)全新的人物形象。赫本和愛莎公主的組合版兼顧了兩者的特點(diǎn):
改變照片人物的年齡、性別也不是不可以:不知 LeCun 對(duì)這次生成的女裝有何感想。
圖源:https://twitter.com/xiaohuggg/status/1746861416743928103
這項(xiàng)研究可以人人試玩,操作也非常簡(jiǎn)單,分為 4 步:
- 首先是上傳一張圖片,一張就可以了,不過(guò)多張效果會(huì)更好,上傳圖片中的人臉應(yīng)該占據(jù)圖像的大部分。
- 第二步是輸入文本提示,操作過(guò)程中確保使用觸發(fā)詞 img,例如 man img、woman img 或 girl img。
- 第三步是選擇喜歡的風(fēng)格模板(內(nèi)置有十多種)。
- 最后一步是單擊 Submit 按鈕,等待生成。
以上生成過(guò)程如果有操作不當(dāng)?shù)牡胤?,PhotoMaker 都會(huì)進(jìn)行提示,不用怕自己操作失誤。
體驗(yàn)中,我們輸入一張馬斯克的照片,提示語(yǔ)為「A man img wearing aspacesuit」,風(fēng)格為漫畫形式,等待幾秒就可以了,效果看起來(lái)還不錯(cuò)。
試玩地址:https://huggingface.co/spaces/TencentARC/PhotoMaker?continueFlag=98363d6ac1beafe515190e50d2c40427
這項(xiàng)研究背后用到了哪些技術(shù),我們接著往下看。
研究介紹
論文地址:https://arxiv.org/pdf/2312.04461.pdf
PhotoMaker 這種高效的個(gè)性化文本到圖像生成方法,它主要將任意數(shù)量的輸入 ID 圖像編碼成一個(gè)堆疊 ID 嵌入,以保留 ID 信息。這樣的嵌入作為統(tǒng)一的 ID 表征,不僅可以全面封裝相同輸入 ID 的特征,而且還可以適應(yīng)不同 ID 的特征以供后續(xù)集成。這為更有趣和實(shí)用價(jià)值的應(yīng)用鋪平了道路。
如圖 1 所示,PhotoMaker 不僅能進(jìn)行常見的重新構(gòu)建,還能改變輸入人像的屬性(例如,配飾和表情),從輸入 ID 生成完全不同視角的人類照片,甚至修改輸入 ID 的性別和年齡(見圖 1)。
PhotoMaker 還為用戶生成定制人像提供了許多可能性。雖然在訓(xùn)練過(guò)程中構(gòu)建堆疊 ID 嵌入的圖像來(lái)自同一 ID,但在推理過(guò)程中可以使用不同的 ID 圖像來(lái)形成堆疊 ID 嵌入,以合并和創(chuàng)建新的定制 ID。合并的新 ID 可以保留不同輸入 ID 的特征。例如,PhotoMaker 可以生成看起來(lái)像馬斯克的斯嘉麗,或者生成一個(gè)將某人與知名 IP 角色混合的定制 ID,見圖 1(c)。
為了推動(dòng) PhotoMaker 的訓(xùn)練,研究者提出了一個(gè)面向 ID 的數(shù)據(jù)構(gòu)建 pipeline 來(lái)組裝訓(xùn)練數(shù)據(jù)。在通過(guò)所提出 pipeline 構(gòu)建的數(shù)據(jù)集的幫助下,PhotoMaker 展示出比測(cè)試時(shí)微調(diào)基礎(chǔ)方法更好的 ID 保留能力,同時(shí)提供了顯著的速度提升、高質(zhì)量的生成結(jié)果、強(qiáng)大的泛化能力和廣泛的應(yīng)用范圍。圖 2 (a) 展示了 PhotoMaker 的概覽。圖 2 (b) 展示了相關(guān)的數(shù)據(jù)構(gòu)建 pipeline。
如圖 3 與表 1 所示,在定性及定量實(shí)驗(yàn)中,PhotoMaker 可以很好地滿足生成高質(zhì)量圖像的能力,同時(shí)確保 ID 的高保真度。
PhotoMaker 還可以將上世紀(jì)甚至古代的人物帶到當(dāng)代,為他們「拍照」,如圖 4 (a) 所示。與 PhotoMaker 相比,Dreambooth 和 SDXL 都難以生成現(xiàn)實(shí)中沒有出現(xiàn)過(guò)的逼真人物圖像。此外,由于 DreamBooth 過(guò)度依賴定制圖像的質(zhì)量和分辨率,因此在使用舊照片進(jìn)行定制生成時(shí),DreamBooth 很難生成高質(zhì)量的結(jié)果。
如果用戶輸入的是不同 ID 的圖片, PhotoMaker 可以很好地整合不同 ID 的特征,形成一個(gè)新的 ID。從圖 5 可以看出,DreamBooth 和 SDXL 都無(wú)法實(shí)現(xiàn)身份混合。相比之下,無(wú)論輸入的是動(dòng)漫 IP 還是真人,無(wú)論性別如何,PhotoMaker 都能在生成的新 ID 上很好地保留不同 ID 的特征。
此外, PhotoMaker 的風(fēng)格化表現(xiàn)也十分優(yōu)秀。如圖 6 展示,PhotoMaker 不僅保持了良好的 ID 保真度,還有效地展示了 prompt 中的風(fēng)格要求。
更多詳細(xì)技術(shù)內(nèi)容,請(qǐng)閱讀原論文。