自然語言處理之14~再探AI生成之人物一致性

2-14:AI生成之人物一致性

新發表的Gemini 3當中,多模態(MultiModal)是被特別強調的重點,它能有效理解文字、圖像、語音和視訊的內容,並做適當的推理和處理。

ChatGPT文字功能很強,在一來一回多次問答中,仍能掌握住提問者的原始想法。但圖片生成卻差強人意,同一個人的相貌外型,經常在幾輪作畫之後,就開始走樣了。

我們比較兩種軟體在不同場景及服裝下,各自兩兩生成同一位女性的差異,下面後兩張圖片相比於前兩張,可看得出來,在多媒體人物一致性上面,Google確實更勝一籌。

這是令人振奮的好消息,它表示,困擾我們很久的Characters Consistency問題,已經改善了不少,AI至少有能力協助繪本作者,畫出書中前後連貫的主配角圖像

於是我們引用古龍小說”多情劍客無情劍”,請Gemini 3畫出人物造型一致的各場景,它的表現,也確實讓人刮目相看。

這些場景是:1. 李尋歡近像。2. 李尋歡相遇阿飛 。3. 李尋歡決戰龍鳳環上官金虹。4. 阿飛勇鬥荊無命。

我們也找來電影劇照相比對,發現AI插畫雖不完全盡如人意,但也並未離題

古龍的武俠小說,對書中人物個性、外型的描寫相當深刻,AI繪圖很容易掌握其特色。

金庸小說,則因為人物眾多、場面浩大,提示詞的使用,實在很難精準到位。

下圖中,郭芙斬斷楊過右臂這一段,Gemini的表現還算稱職,但楊過在襄陽城丟擲飛石擊殺蒙哥大汗,這橋段始終差之毫釐。

Leave a Comment

Your email address will not be published. Required fields are marked *

Shopping Cart