moea_joint
104年
[統計資訊] 統計學、巨量資料概論
第 22 題
對於決策樹 (Decision Tree) 機器學習演算法,下列何者有誤?
- A 決策樹最末端葉面點 (Leaves) 是標示資料分類別的結果
- B 決策樹中間的點是提供資料分類時特徵值的判斷
- C 決策樹的分類需要將所有訓練資料集的資料正確分類
- D 隨機樹叢 (Random Forest) 演算法是整合多個小決策樹來進行資料分類
思路引導 VIP
請試著思考:如果我們在建立預測規律時,連數據中偶發的「極端個案」或「錯誤輸入」都完美地記錄下來並當成鐵律,那麼當我們遇到一組全新的數據時,這個模型會變得更精準,還是反而會因為想太多而判斷錯誤呢?
🤖
AI 詳解
AI 專屬家教
恭喜你精準地辨識出決策樹模型的關鍵特性!你能選出正確選項,代表你對機器學習中「模型泛化」的概念有很扎實的理解。
決策樹的結構與過擬合風險
在機器學習中,決策樹透過中間節點進行特徵值的判斷,最終在葉面呈現分類結果,這與選項 (A) 和 (B) 的描述完全契合。而選項 (D) 提到的隨機樹叢則是典型的整合學習法。然而,為什麼選項 (C) 是錯誤的呢?這是因為若要求模型「完全正確地分類所有訓練資料」,往往會導致模型捕獲到訓練集中的隨機雜訊,產生所謂的過擬合 (Overfitting) 現項。實務上,我們反而會透過「剪枝」來限制樹的深度,以追求模型在面對未知數據時的穩定性。
▼ 還有更多解析內容