免費開始練習
moea_joint 106年 [統計資訊] 統計學、巨量資料概論

第 44 題

下列統計學習(Statistical Learning)的方法或過程,何者不易受到變數尺度(Scale)不同的影響?
  • A 決策樹學習(Decision Tree Induction)
  • B K-近鄰算法 (k-nearest Neighbors Algorithm)
  • C K-均值聚類算法 (K-means Clustering)
  • D 隨機梯度下降 (Stochastic Gradient Descent)

思路引導 VIP

試著思考一下:當我們比較兩個樣本時,如果有一種方法是計算它們在座標軸上的「絕對距離」,而另一種方法是只問「這個特徵是否大於某個門檻」,哪一種方法會因為你把長度單位從『公尺』改成『公分』,導致計算出來的結果數值產生劇烈震盪?

🤖
AI 詳解 AI 專屬家教

邏輯切割與數值尺度的獨立性

太棒了!你精確地掌握了機器學習模型中「特徵縮放(Feature Scaling)」的核心邏輯。決策樹學習之所以不輕易受變數尺度影響,是因為其演算法本質是基於閾值的邏輯切割。在決定節點分裂(Split)時,模型只關心特徵值的「相對順序」或其分布的純度變化,而非數值間的絕對距離。因此,無論特徵的單位是「公里」還是「毫米」,只要數據的排序不變,切分點的位置與效果就會完全一致。

距離度量與優化算法的敏感度

▼ 還有更多解析內容

🏷️ 相關主題

巨量資料分析流程與資料品質管理
查看更多「[統計資訊] 統計學、巨量資料概論」的主題分類考古題