Liz's Blog

Python學習筆記#21:大數據之Spark實作篇

| Comments

進入這個課程倒數第二個章節,進入到大數據和Spark,不過因為這個範圍太廣,算是非常快速的帶過而已,越學越覺得這幾年的發展已經快速到好難追上的地步,但學習的過程也發現事情真的不是只有單一解,人類做不到的,用機器來幫忙做,未必是壞事。

Python學習筆記#20:機器學習之Natural Language Processing(NLP)實作篇

| Comments

自然語言處理(Natural Language Processing, NLP)用途非常廣,講師在這裡也只取一小部分來講,NLP詳細可參考這裡。可用於分類新文章,也可於找到法律文件中找到最相關的部分等。例如:手邊有兩個文件,分別叫做Blue Pen及Red Pen,以字數來區分特徵則,Blue Pen -> (blue,red,pen) -> (1,0,1),而Red Pen則為(0,1,1)。在範例中(blue,red,pen)這種乘載大量字詞的向量,稱為Bag of Words(bow),若想知道Blue Pen及Red Pen的相似度,則可計算兩者間的cosine。若想改善Bag of Words則可藉由調整TF-IDF (Term Frequency - Inverse Document Frequency)來達到目的。

Python學習筆記#17:機器學習之K Means Clustering實作篇

| Comments

K Means Clustering是非監督式學習的一種,依照群聚資料的相似度來分類。非監督式學習的特點在於不需預測結果,重點在於找出特定模式。在K Means Clustering演算法中,我們會先定義總共有幾個分群。演算法會隨機分佈任一觀察值到群組內,找到每個群組的centroid,演算法會重複上面這兩個過程,直到組內差異達到最小。組內差異是計算資料點和各自群組中心的距離總和。K值代表共多少分群,真實的資料常常會很難選擇最好的K值,可以選擇elbow method,也就是測試一連串的K值後,再來選擇最好的值。

Python學習筆記#15:機器學習之決策樹、隨機森林實作篇

| Comments

決策樹(decision tree)的運作和名稱還蠻相像的,依照特定變數去區分最後要不要執行,在許多商業分析中,也算常見。只是用在機器學習中,有不同方式讓判讀更為精準。為了精進判讀的準確性,可利用隨機森林(Random Forests)來加強,其運作的方式隨機選取某棵樹的任一變數作為分岔的決策點。可參考這篇〈隨機森林Random Forest〉。

Python學習筆記#13:機器學習之邏輯迴歸實作篇

| Comments

邏輯迴歸被視為一種Classification(分類)的方法,處理像是貸款預設(借還是不借)、疾病診斷等問題。當事件發生只有發生與不發生的可能,使用線性迴歸,就顯得不合時宜,反而應該把這條線轉為邏輯迴歸曲線(S函數)來處理。做法是,事件只有0或1,在0.5設一條中心線,低於這條線視為不發生(0),高於這條線,視為發生(1),建立完模型後,放進測試組資料來看模型表現,再用confusion matrix來評估分類的好壞。