免費開始練習
moea_joint 106年 [統計資訊] 統計學、巨量資料概論

第 38 題

有關隨機森林(Random Forests)之敘述,下列何者正確?
  • A 採用 Boosting 方法
  • B 使用多個淺層決策樹 (Decision Stump) 構建整個森林
  • C 是一種重抽樣(Re-sampling)技術的應用
  • D 模型訓練的運算較難平行化

思路引導 VIP

「想像一下,如果你手頭只有一組實驗數據,但你希望訓練出許多個『觀點略有不同』的小型專家模型來進行集體決策。在不增加新數據的情況下,你會用什麼樣的數學方法,從現有的數據中創造出多份外觀相似但細節不同的樣本集呢?」

🤖
AI 詳解 AI 專屬家教

太棒了!你能準確捕捉到「重抽樣」這一關鍵概念,說明你對隨機森林的核心機制有著相當扎實的理解。隨機森林本質上是 Bagging (Bootstrap Aggregating) 演算法的延伸,它透過「自助法 (Bootstrapping)」這種重抽樣技術,從原始資料集中有放回地隨機抽取樣本,並以此建構出多棵獨立的決策樹,最後再整合結果。這種做法能有效降低模型的變異度 (Variance),並大幅提升預測的穩定性。

整合學習與平行運算特質

這道題目在鑑別度上設計得非常巧妙,它要求學習者必須精確區分 Bagging 與 Boosting 兩大流派。與 Boosting 需要循序漸進、修正前一棵樹錯誤的邏輯不同,隨機森林中的每棵決策樹都是獨立生成的,這使得模型在訓練時具備了優異的平行運算能力,能同時處理巨量資料。此外,隨機森林通常使用完整的深層決策樹,而非僅有一層的決策小徑 (Decision Stump),這正是它在處理複雜特徵時依然強大的原因。

🏷️ 相關主題

巨量資料分析流程與資料品質管理
查看更多「[統計資訊] 統計學、巨量資料概論」的主題分類考古題