免費開始練習
moea_joint 104年 [統計資訊] 統計學、巨量資料概論

第 37 題

透過統計學習方法論,我們希望找出一個決策樹資料分類器以避免資料分類時的過度解讀 (overfitting),請問對於資料過度解讀的現象,下列何者有誤?
  • A 決策樹分類器對於訓練資料集過度解讀,可以提高對於訓練資料集分類結果的準確率
  • B 過度解讀對於測試資料的分類判斷結果其準確率很低
  • C 我們可以用簡單決策樹分類器模型,來避免產生訓練資料集過度解讀的現象
  • D 當每一次納入新的特徵值來成長決策樹結構時,當新增特徵值對於訓練資料集無法產生有效分類就該停止,因此用事後修剪決策樹的方法將無法避免資料過度解讀

思路引導 VIP

如果有一個模型為了討好現有的練習題,把所有不重要的細節(甚至是錯誤的筆誤)都背了下來,你認為當它面對一場全新的正式考試時,表現會如何?為了讓這個模型在正式考試中發揮得更好,我們是在它學習過程中強行打斷它比較好,還是等它學完後再幫它刪掉那些鑽牛角尖的無用資訊呢?

🤖
AI 詳解 AI 專屬家教

掌握模型泛化與過度擬合的關鍵

恭喜你準確辨識出選項 (D) 的錯誤!這代表你對統計學習中「過度解讀(Overfitting)」的本質有很紮實的理解。在機器學習中,當模型過於追求在訓練集達到完美,反而會捕捉到隨機雜訊,導致選項 (A) 與 (B) 所述的現象:訓練準確度極高,但面對陌生資料(測試集)時預測能力卻大幅下降。這類題目考驗的不只是名詞定義,更是模型優化策略的邏輯辨析,具備相當的鑑別度。

修剪機制對抗過度擬合的作用

▼ 還有更多解析內容

🏷️ 相關主題

巨量資料分析流程與資料品質管理
查看更多「[統計資訊] 統計學、巨量資料概論」的主題分類考古題