機器學習的七個步驟

機器學習的流程共有以下七個步驟：

收集資料（Gathering data ）
準備數據（Preparing that data）
選擇模型（Choosing a model）
訓練機器（Training）
評估分析（Evaluation）
調整參數（Hyperparameter tuning）
預測推論（Prediction）

分類器 Classifcation

undefined

由上圖所示：機器學習分為四大塊： classification (分類)， clustering (聚類), regression (回歸), dimensionality reduction (降維)。

(1)(2)classification & regression

給定一個樣本特徵 x, 我們希望預測其對應的屬性值 y, 如果 y 是離散的, 那麼這就是一個分類問題，

反之，如果 y 是連續的實數, 這就是一個回歸問題。

(3)clustering (聚類)

聚類也是分析樣本的屬性, 有點類似classification, 不同的就是classification 在預測之前是知道 y 的範圍, 或者說知道到底有幾個類別, 而聚類是不知道屬性的範圍的。所以 classification 也常常被稱為 supervised learning, 而clustering就被稱為 unsupervised learning。

(4)dimensionality reduction

降維是機器學習另一個重要的領域, 降維有很多重要的應用, 特徵的維數過高, 會增加訓練的負擔與存儲空間, 降維就是希望去除特徵的冗餘, 用更加少的維數來表示特徵. 降維算法最基礎的就是PCA了,

機器學習常見算法

機器學習領域涉及到很多的算法和模型，這裡遴選一些常見的算法：

正則化算法（Regularization Algorithms）
集成算法（Ensemble Algorithms）
決策樹算法（Decision Tree Algorithm）
回歸（Regression）
人工神經網絡（Artificial Neural Network）
深度學習（Deep Learning）
支持向量機（Support Vector Machine）
降維算法（Dimensionality Reduction Algorithms）
聚類算法（Clustering Algorithms）
基於實例的算法（Instance-based Algorithms）
貝葉斯算法（Bayesian Algorithms）
關聯規則學習算法（Association Rule Learning Algorithms）
圖模型（Graphical Models） ### 正則化算法（Regularization Algorithms）正則化算法是另一種方法（通常是回歸方法）的拓展，這種方法會基於模型複雜性對其進行懲罰，它喜歡相對簡單能夠更好的泛化的模型。正則化中我們將保留所有的特徵變量，但是會減小特徵變量的數量級（參數數值的大小θ(j)）。這個方法非常有效，當我們有很多特徵變量時，其中每一個變量都能對預測產生一點影響。算法實例：
嶺回歸（Ridge Regression）
最小絕對收縮與選擇算子（LASSO）
GLASSO
彈性網絡（Elastic Net）
最小角回歸（Least-Angle Regression）