地特三等申論題
108年
[統計] 迴歸分析
第 一 題
📖 題組:
一組資料內含 Y 及 X1~X5等變數,資料有 31 筆觀察值。為了進行變數選取,考慮 Y 對 X1~X5之一階(first order)所有可能迴歸模式。經由分析整理得到下表: (附有兩張表:一張是所有可能模型的 adjr2 與 Cp 表;另一張是診斷統計量 dfb 與 dffit 的表)
一組資料內含 Y 及 X1~X5等變數,資料有 31 筆觀察值。為了進行變數選取,考慮 Y 對 X1~X5之一階(first order)所有可能迴歸模式。經由分析整理得到下表: (附有兩張表:一張是所有可能模型的 adjr2 與 Cp 表;另一張是診斷統計量 dfb 與 dffit 的表)
📝 此題為申論題,共 4 小題
小題 (一)
以 adjusted R^2 為準則,排序選取最佳三個模式。(6 分)
思路引導 VIP
本題考查迴歸模型選擇準則。調整後判定係數(Adjusted R²)的選取原則為『數值越大,代表模型解釋力越佳』,同時它具備對多餘變數的懲罰效果。解題時直接掃描全表,找出 adjr2 數值最高的前三個模型,並判讀對應的自變數組合(1為選入,0為不選入)即可。
小題 (二)
以 Mallow’s Cp 為準則,排序選取最佳三個模式。(6 分)
思路引導 VIP
看到這題,首先回想 Mallow's Cp 的兩大判斷準則:1. Cp 值越小越好;2. Cp 值應接近或小於模型的參數個數 p (即自變數個數 k + 1)。接著直接掃描表格中 Cp 欄位,找出數值最小的三個模型並對應其變數組合。若包含全模型,可補充說明變數精簡原則。
小題 (三)
採用 F 檢定法,說明向後消去法(Backward elimination, stay level=0.05)準則的選模過程,並列出所選取之模式。(10 分)
思路引導 VIP
本題核心在於理解「向後消去法」的迭代程序(由全模型開始,每次剔除 Partial F 值最小且不顯著的變數)。解題關鍵是利用表中的 Mallows' Cp 統計量反推各模型的誤差平方和 (SSE),進而計算出 Partial F 統計量以進行變數剔除的假設檢定。
小題 (四)
除變數選擇外,針對模型 Y=$\beta_0 +\beta_1X_1+\beta_2X_2+\beta_3X_3+\beta_4X_4+\beta_5X_5+\varepsilon$分析得到另ㄧ表。請以第一列的值解釋 dfb.X2(-0.154)及 dffit(-0.371)的用途及其大概的原理。(6 分)
思路引導 VIP
看到此題,應先辨識出 dfb 與 dffit 分別為迴歸診斷中的 DFBETAS 與 DFFITS 統計量,兩者皆用於偵測『影響點(influential points)』。解題需分為兩層次:首先說明其原理(皆基於剔除單一觀察值 leave-one-out 的概念),接著結合表中的具體數值(-0.154 與 -0.371),具體解釋第 1 筆觀測值對 $\beta_2$ 估計值以及第 1 筆配適值造成的改變方向與幅度。