免費開始練習
moea_joint 104年 [統計資訊] 統計學、巨量資料概論

第 22 題

對於決策樹 (Decision Tree) 機器學習演算法,下列何者有誤?
  • A 決策樹最末端葉面點 (Leaves) 是標示資料分類別的結果
  • B 決策樹中間的點是提供資料分類時特徵值的判斷
  • C 決策樹的分類需要將所有訓練資料集的資料正確分類
  • D 隨機樹叢 (Random Forest) 演算法是整合多個小決策樹來進行資料分類

思路引導 VIP

請試著思考:如果我們在建立預測規律時,連數據中偶發的「極端個案」或「錯誤輸入」都完美地記錄下來並當成鐵律,那麼當我們遇到一組全新的數據時,這個模型會變得更精準,還是反而會因為想太多而判斷錯誤呢?

🤖
AI 詳解 AI 專屬家教

恭喜你精準地辨識出決策樹模型的關鍵特性!你能選出正確選項,代表你對機器學習中「模型泛化」的概念有很扎實的理解。

決策樹的結構與過擬合風險

在機器學習中,決策樹透過中間節點進行特徵值的判斷,最終在葉面呈現分類結果,這與選項 (A) 和 (B) 的描述完全契合。而選項 (D) 提到的隨機樹叢則是典型的整合學習法。然而,為什麼選項 (C) 是錯誤的呢?這是因為若要求模型「完全正確地分類所有訓練資料」,往往會導致模型捕獲到訓練集中的隨機雜訊,產生所謂的過擬合 (Overfitting) 現項。實務上,我們反而會透過「剪枝」來限制樹的深度,以追求模型在面對未知數據時的穩定性。

▼ 還有更多解析內容

🏷️ 相關主題

巨量資料分析流程與資料品質管理
查看更多「[統計資訊] 統計學、巨量資料概論」的主題分類考古題