免費開始練習
高考申論題 108年 [統計] 迴歸分析

第 一 題

📖 題組:
下列是關於模式選取及模式診斷的問題。
📝 此題為申論題,共 3 小題

小題 (一)

下表為給定 4 種不同迴歸模式來配適 13 組資料(y_i, x_i1, x_i2, x_i3),i=1,⋯,13,所得的 AIC(Akaike’s information criterion,赤池訊息標準)值。 模式 A:解釋變數 X_1, X_2,AIC = 25.41,BIC = (1) 模式 B:解釋變數 X_1, X_3,AIC = 65.11,BIC = (2) 模式 C:解釋變數 X_2, X_3,AIC = 51.03,BIC = 52.72 模式 D:解釋變數 X_1, X_2, X_3,AIC = 25.03,BIC = (3) 其中x_ij為解釋變數X_j的資料值,j = 1,2,3,隨機誤差ϵ_1,⋯,ϵ_13為彼此獨立,期望值為0,變異數皆為σ^2的常態分配。請完成此表並利用 AIC 及 BIC(Bayesian information criterion,貝氏訊息標準)來選取最適合的模式。(log(a)為數字 a 的自然對數值,log(2)=0.69,log(3)=1.1,log(4)=1.39,log(9)=2.2,log(10)=2.3,log(13)=2.56)。(10 分)

思路引導 VIP

這題考查資訊準則(Information Criteria)中 AIC 與 BIC 的轉換與模型選擇。解題關鍵在於理解 AIC 與 BIC 在懲罰項(Penalty Term)上的差異。首先,回想公式:AIC = -2 ln(L) + 2k,BIC = -2 ln(L) + k ln(n),其中 k 是估計參數個數,n 是樣本數(本題 n=13)。因此,兩者的差值為 BIC - AIC = k(ln(n) - 2)。 接著,我們必須確認題目中 k 的定義(是否包含變異數 σ^2)。利用已知完整資訊的模式 C 來反推:模式 C 有兩個解釋變數,所以迴歸係數有 β0, β2, β3 共 3 個。BIC - AIC = 52.72 - 51.03 = 1.69。若 k=3,3 × (2.56 - 2) = 3 × 0.56 = 1.68 ≈ 1.69(考慮四捨五入)。由此確認此處的 k 即為「迴歸參數個數(包含截距)」。

🤖
AI 詳解
AI 專屬家教

【考點分析】 本題測驗模型選擇(Model Selection)中赤池資訊準則(AIC)與貝氏資訊準則(BIC)之關聯性,以及不同準則對於參數懲罰權重之差異與評斷標準。 【理論/法規依據】

小題 (二)

考慮下列複迴歸模式 yi = β0 + β1xi1 + β2xi2 + β3xi3 + ϵi,i = 1, ⋯ ,100,其中隨機誤差ϵ_1,⋯,ϵ_100為彼此獨立,期望值為0,而變異數皆為σ^2的常態分配。下列的殘差圖(residual plot),請選出那些(個)不適當並請解釋為何不適當: (1)ei(y 軸)對(y_i) ̂(x 軸)的圖,即((y_i) ̂, ei),i = 1, ⋯ ,100; (2)ei(y 軸)對xi1(x 軸)的圖,即(xi1, ei),i = 1, ⋯ ,100; (3)ei(y 軸)對yi(x 軸)的圖,即(yi, ei),i = 1, ⋯ ,100; (4)ei(y 軸)對xi3(x 軸)的圖,即(xi3, ei),i = 1, ⋯ ,100; (5)ei(y 軸)對i(x 軸)的圖,即(i, ei),i = 1, ⋯ ,100; 其中資料 (yi, xi1, xi2, xi3) 是代表第 i 天收集的資料,(y_i) ̂為第 i 個資料之配適值(fitted value),而ei為第 i 個資料之殘差(residual)值。(5 分)

思路引導 VIP

這是一道標準的迴歸殘差診斷題。解題核心是回憶 OLS(最小平方法)殘差的代數性質:殘差 e 與配適值 ŷ 正交(Cov(e, ŷ) = 0),殘差 e 與各解釋變數 x_j 也正交(Cov(e, x_j) = 0)。因此,將殘差對 ŷ 或對 x 畫圖,點會均勻散佈在 e=0 的水平線上下,不應有趨勢。 然而,如果把殘差 e 對「原始觀察值 y」畫圖呢?因為 y = ŷ + e,殘差 e 本身就是 y 的一部分,兩者存在正相關:Cov(y, e) = Cov(ŷ + e, e) = Cov(ŷ, e) + Var(e) = 0 + σ^2 > 0。因此,e 對 y 的圖會呈現一條從左下到右上的正斜率趨勢線,這無法用來客觀診斷等變異數性(Homoscedasticity)或模型適當性,是不適當的殘差圖。另外,(5) 對時間 i 畫圖是為了檢驗殘差是否有自相關(Autocorrelation),是時間序列橫斷面資料常見且合理的診斷。找出(3)並說明正相關原因是拿分的關鍵。

🤖
AI 詳解
AI 專屬家教

【考點分析】 本題測驗迴歸診斷(Regression Diagnostics)中殘差圖(Residual Plot)的正確使用時機與 OLS 殘差的代數幾何性質,特別是殘差與預測值、觀察值之間的共變異數結構。 【理論/法規依據】

小題 (三)

計算性別薪資差異(男性對女性)的 95%信賴區間,估計一個男性在區域A的平均薪資及其 95%信賴區間。最後,根據 ANOVA 表格中 F 值說明其代表之意義。(10 分)

思路引導 VIP

看到這題應先想到如何設定「虛擬變數(Dummy Variables)」來建立類別變數的多元迴歸模型。接著,透過最小平方法(OLS)求出迴歸係數與 MSE,並利用推導出的標準誤代入信賴區間公式進行區間估計,最後釐清 ANOVA 總體 F 檢定的統計意義。

🤖
AI 詳解
AI 專屬家教

【解題思路】建立虛擬變數迴歸模型,利用最小平方法(OLS)求得係數與 MSE,再透過變異數矩陣計算標準誤進行信賴區間估計,並解釋整體 F 檢定的統計意義。 【詳解】 已知:資料數 $n=6$。

📝 同份考卷的其他題目

查看 108年[統計] 迴歸分析 全題

升級 VIP 解鎖