高考申論題 108年 [統計] 迴歸分析

第一題

📖 題組：
下列是關於配適模式不正確時造成的影響以及模式適合度問題。

📝 此題為申論題，共 4 小題

小題 (一)

某統計學家欲調查某一地區的當年新生人口與當年經濟成長率的關係是線性或是牽涉到更高的次方關係。此統計學家蒐集了下列在不同經濟成長率 x_i（單位為%）的新生人口資料 y_i（單位為萬人），i=1,⋯,7， y_i | 20 | 22 | 26 | 30 | 37 | 39 | 42 x_i | -5 | -3 | -1 | 0 | 1 | 3 | 5 並利用下列兩種迴歸模式來配適資料模式 A：yi = β0 + β1xi + ϵi 模式 B：yi = β0 + β1xi + β2xi^2 + β3xi^3 + ϵi 其中ϵ1,..,ϵ7為彼此獨立且期望值為0，變異數皆為σ^2的隨機誤差。但是真正的迴歸模式是 yi = β0 + β1xi + β2xi^2 + ϵi。如果(β_0A) ̂及(β_1A) ̂為使用模式 A 所得之β0及β1的最小平方估計量（least squares estimator），而(β_0B) ̂, (β_1B) ̂及(β_2B) ̂為使用模式 B 所得之β0, β1及β2的最小平方估計量，請得到這些估計量的期望值向量，即[E((β_0A) ̂) , E((β_1A) ̂)]^T 及 [E((β_0B) ̂) , E((β_1B) ̂) , E((β_2B) ̂)]^T。（7 分）

思路引導 VIP

這題是迴歸分析中非常經典的「模型設誤（Model Misspecification）」問題，分為兩種情況：模式 A 是「遺漏變數（Omitted Variables/Underspecification）」，模式 B 是「過度配適（Overspecification）」。先處理模式 A（遺漏變數）：真正的模型是 y = β0 + β1x + β2x^2 + ϵ。模式 A 只放了截距和 x。利用遺漏變數的期望值公式：E(β̂_A) = β_A + (X_A^T X_A)^(-1) X_A^T X_omit * β_omit。這裡 X_A 是包含 1 和 x 的矩陣，X_omit 是 x^2 的向量，β_omit 就是 β2。首先，觀察數據 x_i 的特性，這是一個對稱設計：-5, -3, -1, 0, 1, 3, 5。因此 Σx_i = 0，Σx_i^3 = 0，這會讓矩陣相乘大量出現 0，極大簡化計算。計算出偏移矩陣 (Alias Matrix) 後乘上 β2 即可得知 E(β̂_0A) 和 E(β̂_1A) 受污染的程度。

🤖

AI 詳解

AI 專屬家教

【考點分析】本題測驗模型設定錯誤（Model Misspecification）對最小平方估計量期望值的影響，涵蓋了「遺漏攸關變數（Underspecification/Omitted Variable Bias）」與「納入無關變數（Overspecification）」兩種經典情境之代數推導。【理論/法規依據】

小題 (二)

針對模式 A，請問是否可利用此統計學家所蒐集的資料作模式缺適檢定（lack of fit test）？如果可，請算出檢定統計量的值；如果不可，請解釋原因。（3 分）

思路引導 VIP

這是一道觀念題。看到「缺適檢定（Lack of Fit Test）」，腦袋裡要立刻閃過它的發動要件：必須要有「重複觀測值（Replicates）」。什麼是重複觀測值？就是在同一個自變數 x 水準下，有兩個以上的 y 觀察值。這樣我們才能算出「純誤差平方和（Pure Error Sum of Squares, SSPE）」，作為檢定模型是否適當的客觀分母。

🤖

AI 詳解

AI 專屬家教

【考點分析】本題測驗模式缺適檢定（Lack of Fit Test）的執行前提與先決要件，即是否具備純誤差（Pure Error）的估計能力。【理論/法規依據】

小題 (三)

採用 F 檢定法，說明向後消去法（Backward elimination, stay level=0.05）準則的選模過程，並列出所選取之模式。（10 分）

思路引導 VIP

本題核心在於理解「向後消去法」的迭代程序（由全模型開始，每次剔除 Partial F 值最小且不顯著的變數）。解題關鍵是利用表中的 Mallows' Cp 統計量反推各模型的誤差平方和 (SSE)，進而計算出 Partial F 統計量以進行變數剔除的假設檢定。

🤖

AI 詳解

AI 專屬家教

【解題思路】利用 Mallows' Cp 統計量與誤差平方和 (SSE) 的數學關係，反推出各模型的 SSE，再藉由計算 Partial F 統計量執行向後消去法的逐次檢定。【詳解】已知：樣本數 $n=31$。令 $k$ 為模型中的變數個數，則模型參數個數 $p = k+1$。

小題 (四)

除變數選擇外，針對模型 Y=$\beta_0 +\beta_1X_1+\beta_2X_2+\beta_3X_3+\beta_4X_4+\beta_5X_5+\varepsilon$分析得到另ㄧ表。請以第一列的值解釋 dfb.X2(-0.154)及 dffit(-0.371)的用途及其大概的原理。（6 分）

思路引導 VIP

看到此題，應先辨識出 dfb 與 dffit 分別為迴歸診斷中的 DFBETAS 與 DFFITS 統計量，兩者皆用於偵測『影響點（influential points）』。解題需分為兩層次：首先說明其原理（皆基於剔除單一觀察值 leave-one-out 的概念），接著結合表中的具體數值（-0.154 與 -0.371），具體解釋第 1 筆觀測值對 $\beta_2$ 估計值以及第 1 筆配適值造成的改變方向與幅度。

🤖

AI 詳解

AI 專屬家教

【破題】表中第一列的 dfb.X2 與 dffit 為迴歸分析中用於偵測「影響點（Influential Observations）」的診斷統計量，即評估單一觀測值對模型估計結果的影響力。【論述】

📝 同份考卷的其他題目

查看 108年[統計] 迴歸分析全題

第 一 題

小題 (一)

思路引導 VIP

小題 (二)

思路引導 VIP

小題 (三)

思路引導 VIP

小題 (四)

思路引導 VIP

📝 同份考卷的其他題目

第一題