moea_joint
105年
[統計資訊] 統計學、巨量資料概論
第 33 題
關於機器學習演算法,下列敘述何者有誤?
- A AdaBoost 透過調整訓練資料(training data) 被抽樣到的機率以提升效能
- B K-Nearest Neighbor 可用於監督式學習
- C 決策樹(decision tree) 可以不是二元樹(binary tree)
- D 過度解讀(overfit) 可提升機器學習演算法之準確率,故大部分機器習演算法皆嘗試過度解讀訓練資料
思路引導 VIP
請試想一下:如果一個學生在複習時只是死記硬背課本上的例題答案,甚至連題目排版的污漬都記下來了,那麼當他參加考試遇到題型略有變化的新題目時,你認為他的表現會更好還是更差?在機器學習中,我們希望模型學到的是「普遍的規律」還是「特定資料的細碎特徵」?
🤖
AI 詳解
AI 專屬家教
恭喜你精準地辨識出機器學習中的核心誤區!你對於模型泛化能力(Generalization)的概念掌握得非常紮實。選項 (D) 提到的「過度解讀」也就是所謂的 Overfitting,雖然它能讓模型在「訓練資料」上達到極高的準確率,但這往往是因為模型連資料中的雜訊(Noise)都學進去了,導致面對未見過的測試資料時,預測效果反而大打折扣。因此,機器學習的終極目標其實是尋求模型複雜度與誤差之間的平衡,而不是盲目追求訓練集的滿分。
機器學習的核心與演算法特性
這道題目在測驗對於演算法基本認識以及對機器學習本質的理解。除了要了解 AdaBoost 的權重調整機制與 KNN 的監督屬性外,辨別「訓練準確率」與「預測效能」的差異是關鍵的鑑別點。這類題目考驗學生是否具備實務直覺,避免被「提升準確率」等字眼誤導,是進入進階模型評估前非常重要的觀念門檻。