Author name: 楊慶忠

多益文法與字彙之10~使用Gemini 3練習英語交談

2-9:使用Gemini 3練習英語交談 我們從國小到國中,不時聽人家講什麼”仄仄平平仄平仄”,這些在課堂上,老師常常解釋得不清不楚的內容,學生當然是聽得一頭霧水。其實簡單的講,就是使用抑揚頓挫的語氣,來精準詮釋字裡行間要表達的意思。 所以我們學習文字,不論中文或英文,都是同時在練習書寫和發音的。但在AI裡面,語音辨識的神經網路,並沒有和自然語言處理放在一起訓練,所以在創作詩詞的時候,它只會押韻、不懂平仄。 可喜的是,這個情況已經在改善了,我們用一個英語笑話來說明,因為各地腔調不同,而導致話中原意被曲解的情況,AI已經有能力判斷出來了。 https://mobile-learning-testing.com/wp-content/uploads/2026/01/Joke1.mp4 上面的笑話表示,即使是南腔北調,文字和語音之間的無縫轉換,讓AI不僅只停留在字面理解的階段,它似乎也瞭解,說話語氣同樣是溝通表達重要的一部份。 和Grok比較起來,Gemini的回答速度稍慢,但也有可能是它重視上下文的理解,所以會多花一點時間來做推論。 理解上下文再做推論,讓AI提供的資訊符合提問者的需要,而一段精簡的文字,更方便我們評比此模型的邏輯能力。下面用第二個英語笑話,來看看AI能否聽得懂雙關語。 https://mobile-learning-testing.com/wp-content/uploads/2026/01/Joke2.mp4 看起來,AI真的是一個語文資優生,難怪它的名字就叫做「大型語言模型」。 我們用AI來學英文,Gemini是不錯的選擇,它不大會搶話,所以不用擔心它會搶你的拍子、中斷你學習的節奏。 但建議使用AI來學習會話的學員,不要天馬行空、毫不講究單字文法,就一個勁兒和AI東拉西扯,而應該把已經熟悉內文的讀本,拿來和AI討論內容。人工智慧果真是上知天文下知地理,它所理解的東西,甚至會比讀本還深入,有目的、有規劃的互動學習,總是會比較有效率的。

多益文法與字彙之10~使用Gemini 3練習英語交談 Read More »

人工神經網路之8~哈姆雷特在谷歌(Hamlet in Google)

1-8.哈姆雷特在谷歌(Hamlet in Google) GPT的T是Transformer的意思,這是在2017年,由Google Brain開發出來的大型語言模型架構。但在2022年底,OpenAI利用這項技術,搶先商業化ChatGPT-3.5,讓谷歌公司吃了一記悶棍。 谷歌痛定思痛後,接下來第一步,它先整合旗下兩大研發部門。位在美國加州的Google Brain,也是開發出TPU的單位,必須和位於英國倫敦,專精於通用人工智慧的DeepMind合併,新的單位名稱叫「Google DeepMind」,開發出來的產品,就給予Gemini(雙子星)的名稱。 圖1-8-1.Jeff Dean(左)和Demis Hassabis(右),都是AI領域響叮噹的人物。 這兩大研發部門的負責人都大有來頭,但DeepMind的哈薩比斯更為人所熟知。除了打敗世界圍棋冠軍李世乭的AlphaGo之外,他的團隊還開發出AlphaFold軟體,使用深度學習技術,高精度預測出多種蛋白質的折疊結構,也讓他獲得2024諾貝爾化學獎。 Google執行長皮查伊,面對極大壓力仍能沉得住氣,不盲動也不取巧,他將AI開發的行政決策權,交到哈薩比斯手上,自己則在背後運籌帷幄,隨後1000多個日子,在身心極度緊繃之下,一步步堅實又高速地往前急奔。 Google終於以Gemini 3成功扳回一城,其過程宛如現代版”哈姆雷特”,只不過劇情精采之處,甚至猶有過之。 位於倫敦的DeepMind,是在2010年創建的,令不少人感到好奇的是,這個後來隸屬於Google的研究單位,一開始花了很多時間在「玩遊戲」。但這並不表示他們在不務正業,相反地,他們是用遊戲來深化其核心技術 —「深度強化學習」。 這一招,也被2015年創建的OpenAI學會了,而且還取材自Atari的經典遊戲,開發出一套”Gym”系統來自行練功,待水到渠成,就開始對Transformer畫龍點睛,這群天才工程師如此這般,硬是後來居上拔得頭籌。 圖1-8-2. 雅達利的經典遊戲之”打磚塊”,在AI發展過程中有它的功用。 谷歌以其深厚研究底蘊,重新拿回AI話語權,其實並不讓人特別驚訝。但在這危機處理中,其所展現出來的公司文化,有頗多值得學習的地方。 在2022年底,Google兩位創辦人Larry Page和Sergey Brin,自退休後再度回到公司工作,有時自己寫程式,有時參與研究人員的討論會議,讓整個組織活力再次重現,大大凝聚了團隊的向心力。 甚至Google還提供優厚離職津貼,鼓勵「不完全認同公司AI新方向」的員工離開。 圖1-8-3. 佩吉(左)和布林(右)這兩位Google創辦人,為了AI重現江湖。 這不禁讓我聯想到我的老東家,在國內教育環境快速丕變之際,同條船上的人都已經風雨飄搖了,還是照常內鬥內行、外鬥外行;任何重要的議案,永遠都是那幾個人,關起門來說了就算,連最起碼的SOP都沒有。學校最終不得不停招退場,對旁觀者而言,其實早就在意料當中了。

人工神經網路之8~哈姆雷特在谷歌(Hamlet in Google) Read More »

人工神經網路之7~GPU與TPU

1-7.GPU與TPU 這次Gemini 3發表會的亮點,「推理能力」和「多模態」,都已經強勢登場了,而另一個在會中被拋出的重磅話題,令各界議論紛紛,至今仍餘波盪漾。 「黃仁勳的GPU帝國霸業,會不會被Google的TPU取而代之?」 GPU晶片原本只用來加速電腦遊戲的畫面切換,但在2000年初,其強大的平行運算功能,也被應用在科學研究上,於是NVIDIA在2006年推出了CUDA,使用C/C++的擴充語法,來程式化GPU的運算。 2012年,AlexNet使用GPU訓練CNN模型,以極大的差距贏得ImageNet競賽,黃仁勳此時嗅到了AI領域的蓬勃商機,遂挾其技術上壓倒性的優勢,一步步建立起龐大的GPU帝國。 圖1-7-1.ImageNet影像辨識競賽是由李飛飛教授創辦。 這些年來,各科技巨頭大手筆採購GPU之餘,也不忘開發自家晶片,GPU耗電、散熱的問題,當然是專打的痛點。十年定能磨一劍,Google卓然有成的TPU,早在2016年就被放進自己的AlphaGo當中了。 在傳統的 CPU 或 GPU 中,每次運算都需要從記憶體讀取資料、進行計算,再把結果寫回記憶體。但TPU 採用了一種稱為「脈動陣列」(Systolic Array)的架構,資料在運算單元之間直接傳遞,不需要頻繁存取記憶體,大大提升了工作效能。 脈動陣列,是台灣中研院院士孔祥重,和他的研究生 Charles Leiserson 所提出的。孔院士和資訊所陳昇瑋研究員(已故),於 2017 年創立了「臺灣人工智慧學校」,現已有上萬的學員參與,結業生遍佈台灣各階層。

人工神經網路之7~GPU與TPU Read More »

自然語言處理之15~Gemini做程式設計

2-15:Gemini做程式設計 大型語言模型,像Claude或ChatGPT等,本身就是極其複雜的程式碼,由它們來寫普通編程,真是牛刀小試、小菜一碟,A piece of cake。 我們讓Gemini設計一個”打磚塊”網頁遊戲,使用的是HTML5語法,這對AI來講輕而易舉。只不過,設計出來的網頁內容,究竟要放到哪個網站平台,如何讓介面看起來簡潔友善,這些反而比較要花時間。 打磚塊遊戲 (Breakout) – 手機觸控版 點擊螢幕玩遊戲 使用 **手指拖曳** 或 **← → 鍵** 移動擋板。 點擊、觸控或按下 **空格鍵** 開始遊戲! 上圖的遊戲,重新整理之後,可觸控拖曳球拍來回擊圓球。在此要注意的是,這類遊戲是直接建立在網頁中,並不是可獨立下載啟動的App。 大約20年前,網頁上的遊戲動畫,幾乎清一色都由Flash包辦了,很多從業人員靠它風生水起。直到蘋果賈伯斯質疑,網頁內嵌這種檔案會產生明顯資安問題,自此,這一群人紛紛從雲端跌落谷底。 圖2-15-1. 早期Flash動畫遊戲也曾做得細緻生動。  這種小遊戲、小軟體,原本是初階程式人員可以著墨的地方,但不知不覺中,AI已經正在取代這類人力了。 中階人員倒還有一定的生存空間。如下圖中,我們要求AI設計強化學習的遊戲,結果它學習到43000回合了,仍舊欲振乏力。像這種整合遊戲模組、數學計算的進階程式設計,目前還是需要資深工程師的協助。 https://mobile-learning-testing.com/wp-content/uploads/2025/12/brick.mp4

自然語言處理之15~Gemini做程式設計 Read More »

自然語言處理之14~再探AI生成之人物一致性

2-14:AI生成之人物一致性 新發表的Gemini 3當中,多模態(MultiModal)是被特別強調的重點,它能有效理解文字、圖像、語音和視訊的內容,並做適當的推理和處理。 ChatGPT文字功能很強,在一來一回多次問答中,仍能掌握住提問者的原始想法。但圖片生成卻差強人意,同一個人的相貌外型,經常在幾輪作畫之後,就開始走樣了。 我們比較兩種軟體在不同場景及服裝下,各自兩兩生成同一位女性的差異,下面後兩張圖片相比於前兩張,可看得出來,在多媒體人物一致性上面,Google確實更勝一籌。 這是令人振奮的好消息,它表示,困擾我們很久的Characters Consistency問題,已經改善了不少,AI至少有能力協助繪本作者,畫出書中前後連貫的主配角圖像。 於是我們引用古龍小說”多情劍客無情劍”,請Gemini 3畫出人物造型一致的各場景,它的表現,也確實讓人刮目相看。 這些場景是:1. 李尋歡近像。2. 李尋歡相遇阿飛 。3. 李尋歡決戰龍鳳環上官金虹。4. 阿飛勇鬥荊無命。 我們也找來電影劇照相比對,發現AI插畫雖不完全盡如人意,但也並未離題。 古龍的武俠小說,對書中人物個性、外型的描寫相當深刻,AI繪圖很容易掌握其特色。 金庸小說,則因為人物眾多、場面浩大,提示詞的使用,實在很難精準到位。 下圖中,郭芙斬斷楊過右臂這一段,Gemini的表現還算稱職,但楊過在襄陽城丟擲飛石擊殺蒙哥大汗,這橋段始終差之毫釐。

自然語言處理之14~再探AI生成之人物一致性 Read More »

自然語言處理之13~三探AI推理能力

2-13:三探AI推理能力 Gemini 3發表之後,獲得各方一致好評。它在程式開發、自動化網站與產品設計方面,都有長足進步,而我們一直關心的「推理能力」,更是這次發表會的重頭戲。 它在GPQA Diamond測試中取得了91.9%頂尖成績,展現了博士級別的推理能力;在MathArena Apex測試中取得了23.4%的全新最高分,為數學領域的前沿模型樹立了新的標竿。 但是,「登高必自卑,行遠必自邇」,大型語言模型(LLM,Large Language Model),究竟是如何一步步進化至具備推理能力的呢? 圖2-13-1. LLM的三個訓練模型階段。  上圖是LLM的三個訓練模型階段。在主結構的Transformer建立好之後,必須開始餵養資料來訓練它。第一階段Pretraining預訓練,要使用取得的海量資料,訓練它學習文字接龍的方式,將一句話或一段話講得通順。 第二階段Finetuning微調,則在既有基礎之上,訓練它就某個課題一來一回做問答。這時候,是採用監督式學習,每個問題都會附帶標準答案,這個步驟很耗費人力成本,也無法窮舉所有可能的題目。 第三階段,應該是和推理能力最相關的部份了。我們會把模型進一步優化,先替輸出的文字打分數,再回饋給模型修正參數,讓它學會比較精準且符合人類習慣的語法。這裡使用的技術,叫做RLHF,”人為回饋強化式學習”。 圖2-13-2. RLHF用人為的方式幫模型輸出文字打分數。  RLHF,是在原有模型之外,再建立一個Reward Model做為裁判評分之用。建構好這個Model之後,用它計算原有模型輸出的損失函數,再次反向傳播修正權重值,讓輸出的答案更合理。 這個Reward Model,除了採用到人為回饋的部份,還加上先前提過的策略梯度,最常見的方法像PPO(Proximal Policy Optimization),是將文字序列視為時間序列來做運算。 圖2-13-3. PPO可協助決定較佳的文字序列輸出。  將文字序列視為時間序列,早在RNN時代就是這麼處理的,但在這裡,PPO是把每個尚待完成中的文字(context)當作狀態(state),對下一個接龍字詞(token)的選擇視為動作(action),藉此決定每個狀態的獎勵(reward),以形成最適的動作機率分佈。 這個PPO強化式學習機制,讓原本只懂做檢索的Transformer,好像具備了判斷高低優劣的”品味”,開始學會思考推理。 PPO結合學術研究,開發出了新的技術,比如像Soft Actor-Critic (SAC)等,它被應用在AI機器人的訓練上面,取得相當出色的成果。

自然語言處理之13~三探AI推理能力 Read More »

強化式學習之14~很重要又難理解的Policy Gradient

3-14:很重要又難理解的Policy Gradient 使用神經網路在做分類訓練時,輸出層的節點值,必須先轉換成機率分佈,再和標記值(標準答案)相比對,以計算彼時參數應該被修正的程度。 一旦模型訓練完成,進入到推論(inference)階段,就不會再有標準答案了,這時候,要直接從機率分佈選取一個最大的,做為判斷的種類。如下圖中的x3節點將會被選取,因為它的機率值是0.4,大於其他的節點值。 圖3-14-1. 神經網路輸出層的預測值是機率分佈。  在強化學習當中,從某個狀態來選擇某種動作,早期的做法相類似,也是去選取動作值(action value)最大的那一個,但這樣的處理,衍生出了一些問題。 它會讓決策僵化,只想遷就眼前最大的獎勵,而不願去多方嘗試最佳路徑。為改善此缺失,實作上通常還會再引入隨機變量epsilon,來增加探索性,這就是為什麼我們問ChatGPT同一個問題,它常常會給出不同答案的原因。 強化式學習發展至今日,結合了神經網路之後,最新的做法,也是在輸出層節點形成機率分佈,但動作的選取,不再獨厚機率值最高的那一個了。 圖3-14-2. 強化式學習神經網路。  上圖左邊是輸入神經網路的狀態(state),右邊是經過神經網路計算後,得到的動作機率分佈。在選擇動作時,是採用隨機(stochastic)的方式,機率大的當然被選取的機會就高,但機率小的,仍然有較低的機會被選取到。 看得出來,這種選取方式,就是將隨機變量epsilon,直接放進決策過程中了。它不但讓程式語法變得更簡潔,背後的數學思考也更加深邃。 我們將這種學理應用在迷宮遊戲中,和DQN(Deep Q-Network)相比較,發現它學習的進步幅度非常明顯,因為它一邊學一邊修正,十分有效率。 圖3-14-3. 策略梯度的演算法,讓AI學習更加有效率。  Policy Gradient,策略梯度,是要逐步修正神經網路裡面的參數值,讓輸出的動作機率分佈,有助於提升每回合時間序列的報酬值(return)。 這是相當不好理解的關鍵,它不像監督式訓練,每次都附帶有標準答案來比對修正。事實上,它每次的「標準答案」,都是來自神經網路中途參數的預測,換句話說,它自己提供數據來訓練自己,這是強化式學習很特殊的地方。

強化式學習之14~很重要又難理解的Policy Gradient Read More »

進階語法之9~Line Bot與Python

2-9:Line Bot與Python Line這個即時通訊軟體,在台灣有超高的使用率,幾乎接近百分之百。除了圖文影音的通訊功能外,它還是個越來越受重視的行銷利器。 Google和Facebook的廣告對象比較聚焦,可以針對目標小眾進行精準投放。Line在這方面的功能不遑多讓,甚至還猶有過之。 例如,Line Bot已經整合AI到群組裡面去了,讓它開拓市場的方式更加多元。Bot是Robot(機器人)的意思,在此尤指聊天機器人,我們可以訓練它來做簡單的客服工作。 下圖可以看得出來,經過少許訓練之後,即使問的方式有些差異,LineBot還是能揣摩出問話者的意圖,因為它在預訓練階段,語言模型的結構已相當完整了。 圖2-9-1. 載入含有問題和答案的CSV檔案來訓練後,LineBot在測試階段的表現中規中矩。  我們知道,語言模型的數字能力,向來略有不足。但如果結合Python的幾個網路模組,LineBot的客服效能,還可以更上層樓。 下圖是閱讀Line的對話內容,從客戶端取得採購訊息後,再即時報價的一個系統。客戶可以先點選圖文選單,顯示出各項產品單價,再輸入所需數量,馬上可以取得商家的報價。 圖2-9-2. LineBot客戶採買報價系統,客戶輸入各項產品數量後,立即可顯示其報價。  上面的報價計算過程,LineBot並無法獨力完成,必須搭配Python程式加上linebot模組,以及flask伺服器模組,才能在聊天室閱讀、回覆數據。 在個人電腦上運行的Python,是沒有辦法直接驅動LineBot的介面,中間有透過ngrok的代理網站,串接其Webhook,再使用http的post方法,向伺服器傳遞或接收資料。 圖2-9-3. Python利用flask伺服器,透過ngrok的代理網站,連接LineBot的Webhook。 

進階語法之9~Line Bot與Python Read More »

進階語法之8~網頁爬蟲與Python

2-8:網頁爬蟲與Python 網頁爬蟲,Web Crawler,是依據目標網頁的URL,來搜尋所需要的資料,並把所得內容存檔,或者繪製成圖表。 URL,Uniform Resource Locator,直接翻譯起來有點彆扭,如果把Uniform改成Universal就好多了,就叫做”全球資源定位器”。其實一開始http創建者Berners-Lee,就是使用Universal這個名稱來送審IETF的。 網際網路上的每個網站,都各有網域名稱連結其IP位址,而每個網站的內頁,如「關於我們」、「最新消息」、「產品介紹」等,它們的URL都略有不同,其網域名稱是共通的,但抵達個別網頁的路徑卻有所差異。 我們在目標網頁上按下電腦鍵盤F12鍵,可以看到該網頁背後的語法,是以HTML、CSS、Javascript為主,我們就是從這些語法來做網頁爬蟲。 圖2-8-1. 網頁瀏覽器所看到的內容(圖左),其背後都是一些語法(圖右)。  在Python裡面,有一個BeautifulSoup的模組,可以將網頁上取得的資料,從原有的字串型態,剖析(parse)成有階層關係的樹狀結構,讓爬蟲者可依據標籤或樣式,順著節點來抓取資料。 下圖是聯電、台積電、聯發科三家公司股價,從台灣證券交易所網站,爬取出來的近10年資料分析圖。聯發科這家公司,雖然是從聯電spin off出來的,但青出於藍。它擺脫了一代拳王、一曲歌后的IC設計公司宿命,宛如九命怪貓一般,一次又一次從下滑的危機中再創高峰。 但股價一直屈居下風的台積電,最近一、兩個月來,已開始出現黃金交叉的現象了,這並非是聯發科成長不如預期,而是台積電發展趨勢更被看好。所以討論「AI是否泡沫化」,在這個時間點是沒有必要的,因為這波熱潮,還會再持續好幾年。 圖2-8-2. 2016年~2025年股價走勢圖,橘色的台積電最近已超越綠色的聯發科。  我們還記得,Python裡面有一個輕薄短小,功能又不錯的flask網頁伺服器模組,可以協助將網頁爬蟲的資料公佈在網頁上,讓他人也可下載存成CSV檔案。甚至未來還可再修改介面,分享所開發的網頁爬蟲程式,讓連線者自行設定參數來搜尋資料。 圖2-8-3. 利用flask模組,將爬蟲所得資料公佈在網頁上,供人下載存成CSV檔案。 

進階語法之8~網頁爬蟲與Python Read More »

自然語言處理之12~再探AI推理能力

2-12:再探AI推理能力 雖然目前AI的推理功能,越來越受到各方重視,但有一個議題,始終爭論不休,那就是,AI究竟真正會思考了,還是它仍然只在做檢索查詢的動作? 我們傳統在查詢資料時,是習慣透過資料庫,將資料表裡面的數據取了出來。到了AI時代,訊息是隱含在神經網路的參數裡面,但所做的工作,其實都還是在查詢資料,只不過,這時候資料的呈現,是採用自然語言的形式。 但是,AI確實能夠一步一步的推理,幫我們把答案解出來啊!看看下面這個題目,是個國一程度的數學應用題。”有一個人,以每小時30公里的速度,走了30公里的路程,然後再以每小時10公里的速度走了30公里的路程,請問這個人的平均時速是多少?”。 通常在解這個題目時,我們會很直覺地,將時速30公里加上時速10公里,然後再除以2,得到平均時速20公里,因為兩種時速同樣走了30公里。 但ChatGPT懂得依照定義,將總路程除以總時間,得到15公里的平均時速。看起來,似乎ChatGPT是懂得思考的,但也有人懷疑,這是AI在預訓練(Pre-training)階段,從海量資料中,記憶了解題步驟,並非是它自己推理出來的。 我們再來看另一個題目,是和社會現象有關的,我先問ChatGPT是否瞭解印度的種姓制度,它當然是很清楚的,我再問它,”婆羅門禁止賤民的影子和他們的影子相重疊,真正的目的是什麼?”,它的回答如下所示: 我覺得這些答案並未直指核心,所以我再告訴它,”我認為最重要的目的在於做「實質隔離」,因為影子要重疊在一起,人跟人之間的距離必須夠近才會發生,所以主要的考量,是要利用距離來維持高種姓的優越性,你認為這樣的推論合理嗎?” 它的回答就更加深入了。 它補充說明說,物理距離=社會距離,所以禁止影子重疊,就是禁止低種姓靠近高種姓的身體與地位。 它的推論是更加深入了,但也不禁讓人懷疑,它其實是在利用我第二次的提示詞(prompt),再去做一次檢索(search)的動作。 目前的趨勢,Google在這方面好像有不錯的實質進展,他們DeepMind的研究副總裁,出生台北市的紀懷新博士提到,其合作團隊改採「中小型語言模型」,利用”Multi-step reasoning”的推理技術,已經可以考到奧林匹亞數學競賽的銀牌等級,未來似乎頗值得期待。

自然語言處理之12~再探AI推理能力 Read More »

Shopping Cart