高考申論題
109年
[統計] 迴歸分析
第 一 題
📖 題組:
三、一位數據分析師受託分析於33(n=33)位男學生,其腳長(Y,以公分為單位)和 X 身高(以英吋為單位)的關係。所建立的簡單線性模型如下:Y_i = \beta_0 + \beta_1 X_i + \varepsilon_i, i=1,\dots,n. 請使用表2部分電腦輸出報表來回答以下問題。表2第一欄是觀察值的順序,第二欄是殘差值。
三、一位數據分析師受託分析於33(n=33)位男學生,其腳長(Y,以公分為單位)和 X 身高(以英吋為單位)的關係。所建立的簡單線性模型如下:Y_i = \beta_0 + \beta_1 X_i + \varepsilon_i, i=1,\dots,n. 請使用表2部分電腦輸出報表來回答以下問題。表2第一欄是觀察值的順序,第二欄是殘差值。
📝 此題為申論題,共 3 小題
小題 (一)
請說明何謂異常點(outlier)和高槓桿觀察值(high leverage observation),及其之間的區別。(8分)
思路引導 VIP
看到這題,首先要聯想到迴歸診斷中「X 空間」與「Y 空間」的區別。異常點(Outlier)是指在 Y 方向上偏離模型預測趨勢的點;高槓桿觀察值(High Leverage)則是指在 X 方向上遠離樣本平均中心的點。答題時應清楚定義兩者,並說明常用的判斷指標(如學生化殘差與 Hat Matrix 對角元素),最後點出兩者最大的差異在於發生的維度不同,以及對迴歸線斜率潛在影響力的差別。
小題 (二)
表2第三欄是標準化的殘差值(studentized residual)。請以此判斷是否有異常點存在?請說明判斷準則。表2第五欄是 Student 化刪除殘差(Studentized deleted residuals,以 R-Student 表示)。第 i 個 R-Student 殘差是在假定將資料中的第 i 個觀察值刪除,然後以剩下的 n-1個觀察值來建立新的估計迴歸方程式而標準化獲得的 R-Student 殘差值。請以此判斷是否有異常點存在?請說明判斷準則。(8分)
思路引導 VIP
本題測驗迴歸診斷中 Y 方向異常點(Outlier)的偵測方法。解題關鍵在於清楚說明「標準化殘差」與「Student化刪除殘差」的判斷準則(通常為絕對值大於 2 或 3,或是與對應自由度的 t 分配臨界值比較),並據此從報表中挑出符合條件的觀測值。
小題 (三)
表2第六欄是 hii(hat value),其公式為 h_{ii} = 1/n + (X_i - $\bar{X})^2 / \sum_{j=1}^n(X_j - \bar{X})^2$,請問 \sum h_{ii} 的值為何?請以此判斷是否有可能的高槓桿觀察值存在?請說明判斷準則。表2的最後一欄,第八欄是 DFFITS(Difference in Fits)值。請以此判斷是否有可能的影響點(influential observation)存在?請說明判斷準則。(8分)
思路引導 VIP
首先回想帽子矩陣(Hat matrix)的數學性質,對角線元素 hii 之和等於模型參數總數 p。接著,運用迴歸診斷的經驗法則,高槓桿點的門檻通常為 2p/n,而 DFFITS 判斷影響點的門檻通常為 2√(p/n)(部分教科書採用絕對值 1)。計算出門檻值後,核對報表數據即可找出對應的潛在異常觀察值。