人工神經網路之3~機器學習

1-3.機器學習

人工智慧這個園地技術交流非常頻繁,有不少現成的資料集可供模型訓練在機器學習這個領域,有數個知名的資料集,例如波士頓房價預測資料集,以及鳶尾花分類資料集等可供下載

波士頓房價預測資料集是被應用在多元線性迴歸分析上面它的變數(特徵)有13個這些特徵部份反映出美國波士頓市的社會結構

波士頓有著名的NBA勁旅凱爾特人(Celtics)隊,他們老祖宗在愛爾蘭及蘇格蘭家鄉的社會階層到了新大陸仍舊可看出一些蛛絲馬跡

影響波士頓房價幾個重要的特徵屋齡和房子大小當然是最基本的但在這個資料集當中,還包括了「中低收入戶比例」和「是否靠近查爾斯河」這些因數

下面的圖形是一張3D散佈圖,三個軸代表三個特徵分別是房子大小(屋子房間數)中低收入戶比例、一氧化氮濃度(空氣指標)。這種分佈圖在資料分析上十分常用,它可以用數據點的大小表示其數量,還可以用數據點的顏色或形狀來分類或分群

圖1-3-1. 波士頓房價資料集所繪製的3D圖

梵谷繪製的「鳶尾花」,是大家耳熟能詳的名作,但一般人比較不瞭解的,是鳶尾花的花萼和花瓣,其長度和寬度,和常人的認知是有所差異的

常見的花朵它的花萼多半是綠色(金庸小說”神鵰俠侶”裡面,就有一位公孫綠),其長度較短且包覆在花瓣外圍底部。但有些鳶尾花的花萼可能會比花瓣長甚至兩者顏色還不容易直接區分出來,所以早在1936年,Ronald Fisher爵士就將其整理為分類的資料雖然其樣本數僅150筆,但直到目前為止,還是非常好用的分類範例

圖1-3-2. 這朵鳶尾花,你可以分辨出來花萼和花瓣各在哪裡嗎

鳶尾花的花萼(sepal)和花瓣(petal),使用其長度(length)和寬度(width)來分類,可以得到下圖的結果。分別是花瓣(petal)較小的紅點Iris-Setosa,中等尺寸的綠點Iris-Versicolor,和較大尺寸的黃點Iris-Virginica。

圖1-3-3. 鳶尾花的三個分類。

Leave a Comment

Your email address will not be published. Required fields are marked *

Shopping Cart