免費開始練習
高考申論題 109年 [統計] 迴歸分析

第 一 題

📖 題組:
三、一位數據分析師受託分析於33(n=33)位男學生,其腳長(Y,以公分為單位)和 X 身高(以英吋為單位)的關係。所建立的簡單線性模型如下:Y_i = \beta_0 + \beta_1 X_i + \varepsilon_i, i=1,\dots,n. 請使用表2部分電腦輸出報表來回答以下問題。表2第一欄是觀察值的順序,第二欄是殘差值。
題組圖片
📝 此題為申論題,共 3 小題

小題 (一)

請說明何謂異常點(outlier)和高槓桿觀察值(high leverage observation),及其之間的區別。(8分)

思路引導 VIP

看到這題,首先要聯想到迴歸診斷中「X 空間」與「Y 空間」的區別。異常點(Outlier)是指在 Y 方向上偏離模型預測趨勢的點;高槓桿觀察值(High Leverage)則是指在 X 方向上遠離樣本平均中心的點。答題時應清楚定義兩者,並說明常用的判斷指標(如學生化殘差與 Hat Matrix 對角元素),最後點出兩者最大的差異在於發生的維度不同,以及對迴歸線斜率潛在影響力的差別。

🤖
AI 詳解
AI 專屬家教

【破題】 在迴歸分析的診斷中,異常點與高槓桿觀察值分別代表資料在反應變數(Y 空間)與解釋變數(X 空間)上的極端表現。區分兩者的概念有助於正確評估單一觀察值對模型配適的影響力。 【論述】

小題 (二)

表2第三欄是標準化的殘差值(studentized residual)。請以此判斷是否有異常點存在?請說明判斷準則。表2第五欄是 Student 化刪除殘差(Studentized deleted residuals,以 R-Student 表示)。第 i 個 R-Student 殘差是在假定將資料中的第 i 個觀察值刪除,然後以剩下的 n-1個觀察值來建立新的估計迴歸方程式而標準化獲得的 R-Student 殘差值。請以此判斷是否有異常點存在?請說明判斷準則。(8分)

思路引導 VIP

本題測驗迴歸診斷中 Y 方向異常點(Outlier)的偵測方法。解題關鍵在於清楚說明「標準化殘差」與「Student化刪除殘差」的判斷準則(通常為絕對值大於 2 或 3,或是與對應自由度的 t 分配臨界值比較),並據此從報表中挑出符合條件的觀測值。

🤖
AI 詳解
AI 專屬家教

【解題關鍵】利用標準化殘差與 Student化刪除殘差檢視觀察值在 Y 軸方向的偏離程度,通常以絕對值大於 2 或 3 作為判斷異常點(Outlier)的經驗準則。 【解答】 一、使用「標準化殘差(Studentized residual)」判斷異常點

小題 (三)

表2第六欄是 hii(hat value),其公式為 h_{ii} = 1/n + (X_i - $\bar{X})^2 / \sum_{j=1}^n(X_j - \bar{X})^2$,請問 \sum h_{ii} 的值為何?請以此判斷是否有可能的高槓桿觀察值存在?請說明判斷準則。表2的最後一欄,第八欄是 DFFITS(Difference in Fits)值。請以此判斷是否有可能的影響點(influential observation)存在?請說明判斷準則。(8分)

思路引導 VIP

首先回想帽子矩陣(Hat matrix)的數學性質,對角線元素 hii 之和等於模型參數總數 p。接著,運用迴歸診斷的經驗法則,高槓桿點的門檻通常為 2p/n,而 DFFITS 判斷影響點的門檻通常為 2√(p/n)(部分教科書採用絕對值 1)。計算出門檻值後,核對報表數據即可找出對應的潛在異常觀察值。

🤖
AI 詳解
AI 專屬家教

【解題思路】運用帽子矩陣的對角線元素總和等於模型參數個數的性質;並根據高槓桿點與影響點的統計診斷準則(Thresholds)來檢視報表數據。 【詳解】 一、 ∑h_ii 的值

📝 同份考卷的其他題目

查看 109年[統計] 迴歸分析 全題

升級 VIP 解鎖