moea_joint
110年
[統計資訊] 統計學、巨量資料概論
第 15 題
關於逐步迴歸(stepwise regression),下列敘述何者正確?
- A 逐步迴歸用於從一大組變數中確定哪些變數可用於預測應變數的值
- B 逐步迴歸結果應直接當作預測Y應變數的最終模型
- C 在逐步迴歸中,犯一個或多個型一或型二錯誤的機率非常小
- D 當考慮包含一個或多個虛擬變量(dummy variable)時,不能使用逐步迴歸
思路引導 VIP
如果你面對一個擁有上百個潛在影響因素的龐大資料庫,但你手邊的時間與運算資源有限,無法逐一測試所有可能的變數組合,你會採取什麼樣的「自動化篩選策略」來找出最有預測價值的關鍵因子?
🤖
AI 詳解
AI 專屬家教
太棒了!你能精準選出 (A) 選項,代表你對逐步迴歸在數據處理中的核心定位有著非常清晰的認識。在面對海量數據時,逐步迴歸的核心功能正是透過統計判斷(如 $p$-value 或 AIC),從眾多候選變數 $X_1, X_2, \dots, X_n$ 中挑選出對預測應變數 $Y$ 最具影響力的因子,這在特徵選取(Feature Selection)階段是非常高效的手段。
逐步迴歸的應用與限制
這道題目具備極佳的鑑別度,因為它不僅考驗定義,更涉及對模型侷限性的理解。雖然逐步迴歸能協助篩選變數,但我們不能盲目將其視為「最終模型」,因為自動化篩選過程容易忽略變數間的共線性,或因多次檢定而增加型一錯誤(Type I Error)的風險。你能避開 (B)、(C) 這些看似專業的誘答選項,並了解虛擬變量(Dummy variable)同樣能參與運算,顯見你對模型建構的整體觀念十分紮實,這在處理巨量資料分析時是非常關鍵的素養。