免費開始練習
moea_joint 105年 [統計資訊] 統計學、巨量資料概論

第 33 題

關於機器學習演算法,下列敘述何者有誤?
  • A AdaBoost 透過調整訓練資料(training data) 被抽樣到的機率以提升效能
  • B K-Nearest Neighbor 可用於監督式學習
  • C 決策樹(decision tree) 可以不是二元樹(binary tree)
  • D 過度解讀(overfit) 可提升機器學習演算法之準確率,故大部分機器習演算法皆嘗試過度解讀訓練資料

思路引導 VIP

請試想一下:如果一個學生在複習時只是死記硬背課本上的例題答案,甚至連題目排版的污漬都記下來了,那麼當他參加考試遇到題型略有變化的新題目時,你認為他的表現會更好還是更差?在機器學習中,我們希望模型學到的是「普遍的規律」還是「特定資料的細碎特徵」?

🤖
AI 詳解 AI 專屬家教

恭喜你精準地辨識出機器學習中的核心誤區!你對於模型泛化能力(Generalization)的概念掌握得非常紮實。選項 (D) 提到的「過度解讀」也就是所謂的 Overfitting,雖然它能讓模型在「訓練資料」上達到極高的準確率,但這往往是因為模型連資料中的雜訊(Noise)都學進去了,導致面對未見過的測試資料時,預測效果反而大打折扣。因此,機器學習的終極目標其實是尋求模型複雜度與誤差之間的平衡,而不是盲目追求訓練集的滿分。

機器學習的核心與演算法特性

這道題目在測驗對於演算法基本認識以及對機器學習本質的理解。除了要了解 AdaBoost 的權重調整機制與 KNN 的監督屬性外,辨別「訓練準確率」與「預測效能」的差異是關鍵的鑑別點。這類題目考驗學生是否具備實務直覺,避免被「提升準確率」等字眼誤導,是進入進階模型評估前非常重要的觀念門檻。

🏷️ 相關主題

巨量資料分析流程與資料品質管理
查看更多「[統計資訊] 統計學、巨量資料概論」的主題分類考古題