高考申論題
109年
[統計] 迴歸分析
第 一 題
📖 題組:
四、一位統計分析師受託預測單位面積房價,欲了解房價受到那些因素所影響。收集了408筆有關於單位面積房價,屋齡(X1,以年為單位),到最近的地鐵站的距離(X2),便利商店數量(X3),房屋座落的緯度(X4)和經度(X5)。擬考慮的模型如下: 模型1 Y_i = \beta_0 + \beta_1 X_{1i} + \beta_2 X_{2i} + \beta_3 X_{3i} + \beta_4 X_{4i} + \beta_5 X_{5i} + \varepsilon_i, i = 1, \dots, n. 模型2 Y_i = \beta_0 + \beta_1 X_{1i} + \beta_2 X_{2i} + \beta_3 X_{3i} + \varepsilon_i, i = 1, \dots, n. 模型3 Y_i = \beta_0 + \beta_1 X_{1i} + \beta_2 X_{2i} + \beta_4 X_{4i} + \beta_5 X_{5i} + \varepsilon_i, i = 1, \dots, n. 請使用表3部分電腦輸出三個模型的變異數分析表(ANOVA, Analysis of Variance)報表來回答以下問題。 (表格數據略述:Model 1 SSE=26465, df=402; Model 2 SSE=29023, df=404; Model 3 SSE=28847, df=403。總變異SST皆為70726)
四、一位統計分析師受託預測單位面積房價,欲了解房價受到那些因素所影響。收集了408筆有關於單位面積房價,屋齡(X1,以年為單位),到最近的地鐵站的距離(X2),便利商店數量(X3),房屋座落的緯度(X4)和經度(X5)。擬考慮的模型如下: 模型1 Y_i = \beta_0 + \beta_1 X_{1i} + \beta_2 X_{2i} + \beta_3 X_{3i} + \beta_4 X_{4i} + \beta_5 X_{5i} + \varepsilon_i, i = 1, \dots, n. 模型2 Y_i = \beta_0 + \beta_1 X_{1i} + \beta_2 X_{2i} + \beta_3 X_{3i} + \varepsilon_i, i = 1, \dots, n. 模型3 Y_i = \beta_0 + \beta_1 X_{1i} + \beta_2 X_{2i} + \beta_4 X_{4i} + \beta_5 X_{5i} + \varepsilon_i, i = 1, \dots, n. 請使用表3部分電腦輸出三個模型的變異數分析表(ANOVA, Analysis of Variance)報表來回答以下問題。 (表格數據略述:Model 1 SSE=26465, df=402; Model 2 SSE=29023, df=404; Model 3 SSE=28847, df=403。總變異SST皆為70726)
📝 此題為申論題,共 3 小題
小題 (一)
在考慮模型1之下,請檢定便利商店數量(X3)這個解釋變數是否可以從給定模型1中刪除。請用顯著水準 $\alpha = 0.05$檢定並敘述對立假設、檢定統計量之值、決策法則和結論。(8分)
思路引導 VIP
這題考查的是「部分 F 檢定(Partial F-test)」,也就是全模型與縮減模型的比較。要檢定 X3 是否能刪除,需將包含 X3 的模型 1 視為全模型,將未包含 X3 的模型 3 視為縮減模型,利用兩者的誤差平方和(SSE)差值構建 F 統計量來進行假設檢定。
小題 (二)
在考慮模型1之下,請檢定房屋座落的緯度(X4)和經度(X5)這兩個解釋變數是否在模型1對預測單位面積房價有影響。亦即請用 $\alpha = 0.05$檢定 H_0: $\beta_4 = \beta_5 = 0$,並請敘述對立假設、檢定統計量之值、決策法則和結論。(8分)
思路引導 VIP
看到這題應立刻聯想到「部分 F 檢定(Partial F-test)」。因為題目要求在一個已有多個變數的迴歸模型中,檢定「其中部分變數(X4, X5)」的聯合顯著性。作法是找出包含所有變數的「全模型(模型1)」與剔除受檢定變數的「縮減模型(模型2)」,利用兩者的殘差平方和(SSE)差異來建構 F 統計量並進行決策。
小題 (三)
請計算模型1,2和3的調整的複判定係數 R^2(the adjusted R-squared)並試述其意義。請敘述(一)(二)檢定,模型誤差項所需要的假設,並綜合(一)(二)檢定結果,請說明在模型1,2和3中,何者模式為最佳模型。(10分)
思路引導 VIP
本題重點在於計算並解釋『調整後 R 平方』,並檢測考生對迴歸分析基本假設的理解。解題時應先提取 ANOVA 表中的 MSE 與 MST 計算指標;接著列出誤差項的四大古典假設(常態、獨立、變異數同質、期望值為零);最後綜合比較 Adj R^2、MSE 甚至部分 F 檢定,論證為何全模型(模型 1)為最佳選擇。