高考申論題
106年
[統計] 迴歸分析
第 三 題
📖 題組:
在作迴歸分析時,經常會遇到離群值和有影響力觀察值(influential data point)的問題。請試述何謂離群值和有影響力觀察值。並請分別試述兩種判斷準則偵測迴歸分析中的離群值和有影響力觀察值。(12 分) (二)圖 2A 是一組數據的散佈圖,圖 2B 提供兩條估計線,實線估計式Y^ = 2.8 + 4.97X 包括第 51 點觀察值((X51, Y51) = (4,50)),虛線估計式Y^ = 3.68 + 4.98X 不包括第 51 點觀察值。請試述這組數據集是否包含任何離群值?並請試述這組數據是否包含任何有影響力觀察值?另請說明理由。(4 分) (三)圖 3A 是另一組數據的散佈圖,圖 3B 提供兩條估計線,實線估計式 Y^ = 6.95 + 4.08X,包括第 41 點觀察值 ((X41, Y41) = (10,16)),虛線估計式 Y^ = 1.93 + 5.21X 不包括第 41 點觀察值。請試述這組數據集是否包含任何離群值?並請試述這組數據集是否包含任何有影響力觀察值?另請說明理由。(4 分)
在作迴歸分析時,經常會遇到離群值和有影響力觀察值(influential data point)的問題。請試述何謂離群值和有影響力觀察值。並請分別試述兩種判斷準則偵測迴歸分析中的離群值和有影響力觀察值。(12 分) (二)圖 2A 是一組數據的散佈圖,圖 2B 提供兩條估計線,實線估計式Y^ = 2.8 + 4.97X 包括第 51 點觀察值((X51, Y51) = (4,50)),虛線估計式Y^ = 3.68 + 4.98X 不包括第 51 點觀察值。請試述這組數據集是否包含任何離群值?並請試述這組數據是否包含任何有影響力觀察值?另請說明理由。(4 分) (三)圖 3A 是另一組數據的散佈圖,圖 3B 提供兩條估計線,實線估計式 Y^ = 6.95 + 4.08X,包括第 41 點觀察值 ((X41, Y41) = (10,16)),虛線估計式 Y^ = 1.93 + 5.21X 不包括第 41 點觀察值。請試述這組數據集是否包含任何離群值?並請試述這組數據集是否包含任何有影響力觀察值?另請說明理由。(4 分)
📝 此題為申論題,共 3 小題
小題 (三)
圖 3A 是另一組數據的散佈圖,圖 3B 提供兩條估計線,實線估計式 Y^ = 6.95 + 4.08X,包括第 41 點觀察值 ((X41, Y41) = (10,16)),虛線估計式 Y^ = 1.93 + 5.21X 不包括第 41 點觀察值。請試述這組數據集是否包含任何離群值?並請試述這組數據集是否包含任何有影響力觀察值?另請說明理由。(4 分)
思路引導 VIP
面對這類給定兩種迴歸式的對比題,應先回歸定義。判斷離群值,可將該點的 X 代入『不含該點』的迴歸式求出預測 Y,若與實際 Y 差距極大(大殘差)即為離群值;判斷有影響力觀察值,則直接比較『包含』與『不包含』該點的兩條迴歸式,若截距或斜率發生顯著變動,即證明該點對模型具有影響力。
小題 (一)
請試述何謂離群值和有影響力觀察值。並請分別試述兩種判斷準則偵測迴歸分析中的離群值和有影響力觀察值。(12 分)
思路引導 VIP
看到此題應先釐清「離群值」與「有影響力觀察值」在迴歸模型中的本質差異:前者是 Y 方向上的異常(殘差大),後者是對模型估計結果造成重大改變的點(通常結合 X 方向的槓桿值與 Y 方向的殘差)。作答時,先精確定義兩者,接著各列舉兩種常見的統計診斷指標(如學生化殘差、Cook's D 等),並給出具體的經驗判斷準則。
小題 (二)
圖 2A 是一組數據的散佈圖,圖 2B 提供兩條估計線,實線估計式Y^ = 2.8 + 4.97X 包括第 51 點觀察值((X51, Y51) = (4,50)),虛線估計式Y^ = 3.68 + 4.98X 不包括第 51 點觀察值。請試述這組數據集是否包含任何離群值?並請試述這組數據是否包含任何有影響力觀察值?另請說明理由。(4 分)
思路引導 VIP
作答此題須緊扣「離群值」與「影響力觀察值」的定義。可透過計算該點代入原迴歸線所產生的殘差大小來判斷是否為離群值;並藉由比較剔除該點前後,迴歸係數(尤其斜率)是否發生劇烈變化,來判斷該點是否具備影響力。