自然語言處理之14~再探AI生成之人物一致性

2-14：AI生成之人物一致性

新發表的Gemini 3當中，多模態(MultiModal)是被特別強調的重點，它能有效理解文字、圖像、語音和視訊的內容，並做適當的推理和處理。

ChatGPT文字功能很強，在一來一回多次問答中，仍能掌握住提問者的原始想法。但圖片生成卻差強人意，同一個人的相貌外型，經常在幾輪作畫之後，就開始走樣了。

我們比較兩種軟體在不同場景及服裝下，各自兩兩生成同一位女性的差異，下面後兩張圖片相比於前兩張，可看得出來，在多媒體人物一致性上面，Google確實更勝一籌。

這是令人振奮的好消息，它表示，困擾我們很久的Characters Consistency問題，已經改善了不少，AI至少有能力協助繪本作者，畫出書中前後連貫的主配角圖像。

於是我們引用古龍小說”多情劍客無情劍”，請Gemini 3畫出人物造型一致的各場景，它的表現，也確實讓人刮目相看。

這些場景是：1. 李尋歡近像。2. 李尋歡相遇阿飛。3. 李尋歡決戰龍鳳環上官金虹。4. 阿飛勇鬥荊無命。

我們也找來電影劇照相比對，發現AI插畫雖不完全盡如人意，但也並未離題。

古龍的武俠小說，對書中人物個性、外型的描寫相當深刻，AI繪圖很容易掌握其特色。

金庸小說，則因為人物眾多、場面浩大，提示詞的使用，實在很難精準到位。

下圖中，郭芙斬斷楊過右臂這一段，Gemini的表現還算稱職，但楊過在襄陽城丟擲飛石擊殺蒙哥大汗，這橋段始終差之毫釐。