2-4:資料處理模組
我們最熟悉的試算表軟體,大概非Excel莫屬了。這個軟體,火紅到有人光憑上傳教學影片至Youtube,教導各種日常活用Excel的場景,就可以獲利上百萬美元、賺進第一桶金,簡直讓人大呼不可思議。
Excel的各項設計,讓人工處理二維表單,變得視覺化又直覺化,可以快速正確得到數值運算的結果,為使用者節省大量時間成本。
隨著大數據時代的來臨,微軟也開始多方促銷開發既久的VBA,Visual Basic Applications,用來輔助Excel程式能力之不足。但囿於試算表先天框架所限,資料必須在儲存格、表格、視窗、檔案各種物件間轉換,讓VBA程式寫起來總算差強人意。
圖2-4-1. Excel試算表裡面,附有VBA程式設計的功能。
值此同時,越來越多人使用的Python,其資料處理模組Pandas,Python and data analysis,則以快速處理大量數據的能力,攫獲學界和業界的青睞。這個模組,可將外部的csv資料檔案,讀取至程式碼裡面,再以其內建的處理函式,運算各項統計數據。
下圖是簡短程式執行第1~4行的結果,第5~8行先用註解行略過。第1行匯入pandas模組,給予簡易名稱pd;第2行使用pd的read_csv類別,輸入ads3.csv資料檔,建立二維表格資料物件df;第3行將df內容全部輸出;第4行只輸出df的兩個欄位”Coms”和”CPM”。資料有8筆,由0編號至7。
下圖則是完整程式執行第5~8行的結果,第1~4行用註解行略過。第5行是用mean( )指令,求取”CPM”欄位的平均值;第6行是用std( )指令,求取”CPM”欄位的標準差;第7行搜尋”ROAS”欄位值為5的所有紀錄;第8行則是依”ROAS”的大小,將全部紀錄做排序。
平均值、標準差、搜尋、排序,是資料統計分析最基本的運算,在pandas裡面,都可以用簡單的指令快速處理。所以有人就把pandas,比喻為Python裡面的Excel。
在DOS作業系統時代,銷量最大的試算表Lotus 1-2-3,幾乎壟斷了IBM相容電腦市場,後來IBM乾脆花天價買下此產品,引發各界議論。但如前文提到的,微軟參與蘋果麥金塔的開發,取得圖形化介面的先機,讓Excel得以蠶食視窗作業系統市場,最終迫使IBM Lotus 1-2-3於2013年停產。
個人電腦試算表原本就存在有強勁的市場需求,早在蘋果電腦Apple 2推出時,上面就搭售廣受歡迎的VisiCalc,在記憶體有限的年代,它充分利用每一位元之精妙,宛若在雕琢藝術珍品一般。但市場競爭太激烈,這個產品風光了五、六年,在摩爾定律奏效之後,就被Lotus 1-2-3大幅超越了。
圖2-4-4. VisiCalc在Apple 2螢幕上的編輯畫面,它是品項數目乘以單價加總後再課稅的運算。