第 一 題
下列是關於配適模式不正確時造成的影響以及模式適合度問題。
小題 (一)
思路引導 VIP
這題是迴歸分析中非常經典的「模型設誤(Model Misspecification)」問題,分為兩種情況:模式 A 是「遺漏變數(Omitted Variables/Underspecification)」,模式 B 是「過度配適(Overspecification)」。 先處理模式 A(遺漏變數):真正的模型是 y = β0 + β1x + β2x^2 + ϵ。模式 A 只放了截距和 x。利用遺漏變數的期望值公式:E(β̂_A) = β_A + (X_A^T X_A)^(-1) X_A^T X_omit * β_omit。這裡 X_A 是包含 1 和 x 的矩陣,X_omit 是 x^2 的向量,β_omit 就是 β2。首先,觀察數據 x_i 的特性,這是一個對稱設計:-5, -3, -1, 0, 1, 3, 5。因此 Σx_i = 0,Σx_i^3 = 0,這會讓矩陣相乘大量出現 0,極大簡化計算。計算出偏移矩陣 (Alias Matrix) 後乘上 β2 即可得知 E(β̂_0A) 和 E(β̂_1A) 受污染的程度。
小題 (二)
思路引導 VIP
這是一道觀念題。看到「缺適檢定(Lack of Fit Test)」,腦袋裡要立刻閃過它的發動要件:必須要有「重複觀測值(Replicates)」。 什麼是重複觀測值?就是在同一個自變數 x 水準下,有兩個以上的 y 觀察值。這樣我們才能算出「純誤差平方和(Pure Error Sum of Squares, SSPE)」,作為檢定模型是否適當的客觀分母。
小題 (三)
思路引導 VIP
本題核心在於理解「向後消去法」的迭代程序(由全模型開始,每次剔除 Partial F 值最小且不顯著的變數)。解題關鍵是利用表中的 Mallows' Cp 統計量反推各模型的誤差平方和 (SSE),進而計算出 Partial F 統計量以進行變數剔除的假設檢定。
小題 (四)
思路引導 VIP
看到此題,應先辨識出 dfb 與 dffit 分別為迴歸診斷中的 DFBETAS 與 DFFITS 統計量,兩者皆用於偵測『影響點(influential points)』。解題需分為兩層次:首先說明其原理(皆基於剔除單一觀察值 leave-one-out 的概念),接著結合表中的具體數值(-0.154 與 -0.371),具體解釋第 1 筆觀測值對 $\beta_2$ 估計值以及第 1 筆配適值造成的改變方向與幅度。