高考申論題 108年 [統計] 迴歸分析

第一題

📖 題組：
下列是關於模式選取及模式診斷的問題。

📝 此題為申論題，共 2 小題

小題 (一)

下表為給定 4 種不同迴歸模式來配適 13 組資料(y_i, x_i1, x_i2, x_i3)，i=1,⋯,13，所得的 AIC（Akaike’s information criterion，赤池訊息標準）值。

| 模式 | 解釋變數 | AIC | BIC |
|---|---|---|---|
| A | $X_1, X_2$ | 25.41 | (1) |
| B | $X_1, X_3$ | 65.11 | (2) |
| C | $X_2, X_3$ | 51.03 | 52.72 |
| D | $X_1, X_2, X_3$ | 25.03 | (3) |

其中x_ij為解釋變數X_j的資料值，j = 1,2,3，隨機誤差ϵ_1,⋯,ϵ_13為彼此獨立，期望值為0，變異數皆為σ^2的常態分配。請完成此表並利用 AIC 及 BIC（Bayesian information criterion，貝氏訊息標準）來選取最適合的模式。（log(a)為數字 a 的自然對數值，log(2)=0.69，log(3)=1.1，log(4)=1.39，log(9)=2.2，log(10)=2.3，log(13)=2.56）。（10 分）

思路引導 VIP

這題考查資訊準則（Information Criteria）中 AIC 與 BIC 的轉換與模型選擇。解題關鍵在於理解 AIC 與 BIC 在懲罰項（Penalty Term）上的差異。首先，回想公式：AIC = -2 ln(L) + 2k，BIC = -2 ln(L) + k ln(n)，其中 k 是估計參數個數，n 是樣本數（本題 n=13）。因此，兩者的差值為 BIC - AIC = k(ln(n) - 2)。接著，我們必須確認題目中 k 的定義（是否包含變異數 σ^2）。利用已知完整資訊的模式 C 來反推：模式 C 有兩個解釋變數，所以迴歸係數有 β0, β2, β3 共 3 個。BIC - AIC = 52.72 - 51.03 = 1.69。若 k=3，3 × (2.56 - 2) = 3 × 0.56 = 1.68 ≈ 1.69（考慮四捨五入）。由此確認此處的 k 即為「迴歸參數個數（包含截距）」。

🤖

AI 詳解

AI 專屬家教

【考點分析】本題測驗模型選擇（Model Selection）中赤池資訊準則（AIC）與貝氏資訊準則（BIC）之關聯性，以及不同準則對於參數懲罰權重之差異與評斷標準。【理論/法規依據】

小題 (二)

考慮下列複迴歸模式 yi = β0 + β1xi1 + β2xi2 + β3xi3 + ϵi，i = 1, ⋯ ,100，其中隨機誤差ϵ_1,⋯,ϵ_100為彼此獨立，期望值為0，而變異數皆為σ^2的常態分配。下列的殘差圖（residual plot），請選出那些（個）不適當並請解釋為何不適當:
(1)ei(y 軸)對(y_i) ̂(x 軸)的圖，即((y_i) ̂, ei)，i = 1, ⋯ ,100;
(2)ei(y 軸)對xi1(x 軸)的圖，即(xi1, ei)，i = 1, ⋯ ,100;
(3)ei(y 軸)對yi(x 軸)的圖，即(yi, ei)，i = 1, ⋯ ,100;
(4)ei(y 軸)對xi3(x 軸)的圖，即(xi3, ei)，i = 1, ⋯ ,100;
(5)ei(y 軸)對i(x 軸)的圖，即(i, ei)，i = 1, ⋯ ,100;
其中資料 (yi, xi1, xi2, xi3) 是代表第 i 天收集的資料，(y_i) ̂為第 i 個資料之配適值（fitted value），而ei為第 i 個資料之殘差（residual）值。(5 分)

思路引導 VIP

這是一道標準的迴歸殘差診斷題。解題核心是回憶 OLS（最小平方法）殘差的代數性質：殘差 e 與配適值 ŷ 正交（Cov(e, ŷ) = 0），殘差 e 與各解釋變數 x_j 也正交（Cov(e, x_j) = 0）。因此，將殘差對 ŷ 或對 x 畫圖，點會均勻散佈在 e=0 的水平線上下，不應有趨勢。然而，如果把殘差 e 對「原始觀察值 y」畫圖呢？因為 y = ŷ + e，殘差 e 本身就是 y 的一部分，兩者存在正相關：Cov(y, e) = Cov(ŷ + e, e) = Cov(ŷ, e) + Var(e) = 0 + σ^2 > 0。因此，e 對 y 的圖會呈現一條從左下到右上的正斜率趨勢線，這無法用來客觀診斷等變異數性（Homoscedasticity）或模型適當性，是不適當的殘差圖。另外，(5) 對時間 i 畫圖是為了檢驗殘差是否有自相關（Autocorrelation），是時間序列橫斷面資料常見且合理的診斷。找出(3)並說明正相關原因是拿分的關鍵。

🤖

AI 詳解

AI 專屬家教

【考點分析】本題測驗迴歸診斷（Regression Diagnostics）中殘差圖（Residual Plot）的正確使用時機與 OLS 殘差的代數幾何性質，特別是殘差與預測值、觀察值之間的共變異數結構。【理論/法規依據】

🏷️ 相關主題

迴歸分析之推論與應用

查看更多「[統計] 迴歸分析」的主題分類考古題

📝 同份考卷的其他題目

查看 108年[統計] 迴歸分析全題

第 一 題

小題 (一)

思路引導 VIP

小題 (二)

思路引導 VIP

📎 觀念相似題

🏷️ 相關主題

📝 同份考卷的其他題目

第一題