第 一 題
在作迴歸分析時,經常會遇到離群值和有影響力觀察值(influential data point)的問題。請試述何謂離群值和有影響力觀察值。並請分別試述兩種判斷準則偵測迴歸分析中的離群值和有影響力觀察值。(12 分) (二)圖 2A 是一組數據的散佈圖,圖 2B 提供兩條估計線,實線估計式Y^ = 2.8 + 4.97X 包括第 51 點觀察值((X51, Y51) = (4,50)),虛線估計式Y^ = 3.68 + 4.98X 不包括第 51 點觀察值。請試述這組數據集是否包含任何離群值?並請試述這組數據是否包含任何有影響力觀察值?另請說明理由。(4 分) (三)圖 3A 是另一組數據的散佈圖,圖 3B 提供兩條估計線,實線估計式 Y^ = 6.95 + 4.08X,包括第 41 點觀察值 ((X41, Y41) = (10,16)),虛線估計式 Y^ = 1.93 + 5.21X 不包括第 41 點觀察值。請試述這組數據集是否包含任何離群值?並請試述這組數據集是否包含任何有影響力觀察值?另請說明理由。(4 分)
小題 (一)
思路引導 VIP
看到此題應先釐清「離群值」與「有影響力觀察值」在迴歸模型中的本質差異:前者是 Y 方向上的異常(殘差大),後者是對模型估計結果造成重大改變的點(通常結合 X 方向的槓桿值與 Y 方向的殘差)。作答時,先精確定義兩者,接著各列舉兩種常見的統計診斷指標(如學生化殘差、Cook's D 等),並給出具體的經驗判斷準則。
小題 (二)
思路引導 VIP
作答此題須緊扣「離群值」與「影響力觀察值」的定義。可透過計算該點代入原迴歸線所產生的殘差大小來判斷是否為離群值;並藉由比較剔除該點前後,迴歸係數(尤其斜率)是否發生劇烈變化,來判斷該點是否具備影響力。
小題 (三)
思路引導 VIP
面對這類給定兩種迴歸式的對比題,應先回歸定義。判斷離群值,可將該點的 X 代入『不含該點』的迴歸式求出預測 Y,若與實際 Y 差距極大(大殘差)即為離群值;判斷有影響力觀察值,則直接比較『包含』與『不包含』該點的兩條迴歸式,若截距或斜率發生顯著變動,即證明該點對模型具有影響力。
小題 (四)
思路引導 VIP
考生看到此題應先從 ANOVA 表的結構與題目給定的基本統計量出發。首先利用 Corrected Total 的自由度 (DF=10) 確認樣本數 (n=11),並透過 Y 的標準差 (s=2) 反推總變異平方和 (SST)。接著利用平方和的加法性 (SST = SSR + SSE) 與已知模型的 SSE,即可依序推導出所有空格的數值。
小題 (五)
思路引導 VIP
看到偏F檢定,首要聯想「額外平方和原則」(Extra Sum of Squares)。辨認出完整模型(LM3)與縮減模型(LM1),並找出對應的誤差平方和 (SSE) 與自由度(需辨識題幹中的樣本數 n=11),代入偏 F 統計量公式即可求解。
小題 (六)
思路引導 VIP
本題測驗變異數分析(ANOVA)表的核心概念。考生應聯想到迴歸均方(MSR)的期望值公式包含了誤差變異數與真實迴歸係數構成的二次式,進而推導出只有當所有斜率係數皆為零(即總檢定之虛無假說成立)時,E(MSR) 才會等於誤差變異數。
小題 (七)
思路引導 VIP
看到由變異數-共變異數矩陣求相關係數矩陣,應立即聯想到矩陣轉換公式 R = D^{-1/2} V D^{-1/2}。關鍵在於提取 V 主對角線上的變異數,將其開根號求得標準差,再取倒數即可構造出所需乘上的對角矩陣。