增強式學習之4~Q-learning - 行動學習與測驗工作室

3-4：Q-learning

增強式學習裡面，有一個很基本的技巧，叫做Q-learning。Q是Quality的意思，指在某種狀態下，採取某個行動的價值，或者說在幾個可供選擇的行動中，各個行動品質的量化評估。

Q-learning的演練例子當中，除了先前提過的迷宮遊戲之外，Open AI公司所提供的Gym Cart-Pole，「木棒平衡滑車」遊戲，是被引用次數相當多典型範例，它訓練滑車左右快速移動，來讓繞軸轉動的木棒可以維持平衡。

上圖的實驗是不容易複製的，除了程式設計之外，還要有精準的機械控制模組來協作，一般人是沒辦法模仿的。

所以變通的方式，就是純粹用電腦動畫遊戲來模擬看看。但模擬過程的計算還真不好處理，因為木棒的軌跡，除了移動還有轉動，要做得維妙維肖，除了程式語言，還要有力學的演算技巧。只是一般設計程式的人，往往連「角速度乘以曲率半徑等於線性速度」，這樣的物理基礎都沒有，所以設計出來的動畫遊戲，就如下圖這般形似而神異了。

Cart-Pole這個訓練遊戲的重點，是在決定整個環境(environment)有哪些狀態(state)，代理人(agent)有哪些動作(action)。只不過它的四個狀態中，木棒角度和角速度就會難倒很多人，嚴格來講，這個練習並不適合讓初學者來嘗試。

值得慶幸的是它的代理人動作倒還很簡單，就是滑車在某個位置時，要決定下一步是朝左移動、朝右移動或靜止不動這三種。我們把這三種動作維持不變，場景改成類似個人版的乒乓球遊戲，狀態就可大幅簡化成三個物體的位置，如此，初學者就可以很清楚，在套用Q-learning的時候，Q-table的四軸陣列，應該要如何建立起來了。

上圖的訓練遊戲，它的reward值，在球接觸到拍子的狀態，應該是一個大的正數，在球接觸到地板的狀態，應該是一個大的負數，其他的狀態，給予 -1的reward即可。它可據此算出各個狀態的最適行動Q值，來決定下一步應該採取的行動。

這整個場景像是一維半(1.5D)的乒乓球遊戲，因為兩個球都只能在垂直方向移動，如果可以讓一個球在二維平面(2D)上持續移動，那就是個人乒乓遊戲的AI版本了。

Leave a Comment Cancel Reply