自然語言處理之13~三探AI推理能力
2-13:三探AI推理能力 Gemini 3發表之後,獲得各方一致好評。它在程式開發、自動化網站與產品設計方面,都有長足進步,而我們一直關心的「推理能力」,更是這次發表會的重頭戲。 它在GPQA Diamond測試中取得了91.9%頂尖成績,展現了博士級別的推理能力;在MathArena Apex測試中取得了23.4%的全新最高分,為數學領域的前沿模型樹立了新的標竿。 但是,「登高必自卑,行遠必自邇」,大型語言模型(LLM,Large Language Model),究竟是如何一步步進化至具備推理能力的呢? 圖2-13-1. LLM的三個訓練模型階段。 上圖是LLM的三個訓練模型階段。在主結構的Transformer建立好之後,必須開始餵養資料來訓練它。第一階段Pretraining預訓練,要使用取得的海量資料,訓練它學習文字接龍的方式,將一句話或一段話講得通順。 第二階段Finetuning微調,則在既有基礎之上,訓練它就某個課題一來一回做問答。這時候,是採用監督式學習,每個問題都會附帶標準答案,這個步驟很耗費人力成本,也無法窮舉所有可能的題目。 第三階段,應該是和推理能力最相關的部份了。我們會把模型進一步優化,先替輸出的文字打分數,再回饋給模型修正參數,讓它學會比較精準且符合人類習慣的語法。這裡使用的技術,叫做RLHF,”人為回饋強化式學習”。 圖2-13-2. RLHF用人為的方式幫模型輸出文字打分數。 RLHF,是在原有模型之外,建立一個Reward Model做為裁判評分之用。建構好這個Model之後,用它計算原有模型輸出的損失函數,再反向傳播修正權重值,讓輸出的答案更合理。 這個Reward Model,除了採用到人為回饋的部份,還加上先前提過的策略梯度,最常見的方法像PPO(Proximal Policy Optimization),是將文字序列視為時間序列來做運算。 圖2-13-3. PPO可協助決定較佳的文字序列輸出。 將文字序列視為時間序列,早在RNN時代就是這麼處理的,但在這裡,PPO是把每個尚待完成中的文字(context)當作狀態(state),對下一個接龍字詞(token)的選擇視為動作(action),藉此決定每個狀態的獎勵(reward),以形成最適的動作機率分佈。 這個PPO強化式學習機制,讓原本只懂做檢索的Transformer,好像具備了判斷高低優劣的”品味”,開始學會思考推理。 PPO結合學術研究,開發出了新的技術,比如像Soft Actor-Critic (SAC)等,它被應用在AI機器人的訓練上面,取得相當出色的成果。
自然語言處理之13~三探AI推理能力 Read More »




