地特三等申論題
107年
[統計] 迴歸分析
第 一 題
📖 題組:
一位資料分析師受託分析一組數據,想要了解一個特定基因,稱之GT 基因,是否有影響老鼠斷奶時的重量。該分析師預計配適模型 1和模型 2。 Y=斷奶時的重量(公克為單位) X1=年齡(以日為單位) X2=品種(品種 A=1,B=0) X3=GT 基因(有此基因=1,無此基因=0) X4=性別(公老鼠=1,母老鼠=0) 模型 1:Yi = β0 + β1X1i + β2X2i + β3X3i + β4X4i + εi 模型 2:Yi = β0 + β1X1i + β2X2i + β3X3i + β4X4i + β5X1iX2i + εi 請使用圖 4 和圖 5 中部分統計電腦套裝軟體輸出變異數分析(ANOVA, Analysis of Variance)回答下列問題: (圖4:模型1 ANOVA,Model DF=4, Error DF=88, Corrected Total=92, SSE=611.2830。包含參數估計表。) (圖5:模型2 ANOVA,Model DF=5, Error DF=87, Corrected Total=92, SSE=517.3508。)
一位資料分析師受託分析一組數據,想要了解一個特定基因,稱之GT 基因,是否有影響老鼠斷奶時的重量。該分析師預計配適模型 1和模型 2。 Y=斷奶時的重量(公克為單位) X1=年齡(以日為單位) X2=品種(品種 A=1,B=0) X3=GT 基因(有此基因=1,無此基因=0) X4=性別(公老鼠=1,母老鼠=0) 模型 1:Yi = β0 + β1X1i + β2X2i + β3X3i + β4X4i + εi 模型 2:Yi = β0 + β1X1i + β2X2i + β3X3i + β4X4i + β5X1iX2i + εi 請使用圖 4 和圖 5 中部分統計電腦套裝軟體輸出變異數分析(ANOVA, Analysis of Variance)回答下列問題: (圖4:模型1 ANOVA,Model DF=4, Error DF=88, Corrected Total=92, SSE=611.2830。包含參數估計表。) (圖5:模型2 ANOVA,Model DF=5, Error DF=87, Corrected Total=92, SSE=517.3508。)
📝 此題為申論題,共 4 小題
小題 (一)
請計算模型 1 和模型 2 的調整的複判定係數 R2(the adjusted R-squared)。試述其意義,並判斷何種模型為佳。(8 分)
思路引導 VIP
考生看到此題應先聯想「調整後判定係數(Adjusted R-squared)」的公式:1 - [MSE / (SST / (n-1))]。接著從圖表擷取誤差平方和(SSE)、誤差自由度、總變異(SST)及總自由度代入計算。最後需點出該指標對「增加自變數」的懲罰機制,並據此比較兩模型優劣(數值大者佳)。
小題 (二)
在顯著水準 5%下,請檢定「GT 基因」在模型 1 中是否影響老鼠的重量?(4 分)
思路引導 VIP
看到檢定個別變數是否影響依變數時,應立即聯想到個別迴歸係數的 t 檢定。本題針對模型 1 的 GT 基因 (X3),只需直接查看圖 4 提供的參數估計表 (Parameter Estimates),找到 X3 對應的 P 值並與顯著水準 5% 進行比較,即可快速得出結論。
小題 (三)
請解釋在考慮模型 1 下,請說明如何檢定老鼠的性別之兩條迴歸線是相同的迴歸線。並請列出虛無假設、對立假設、檢定統計量及決策法則。(4 分)
思路引導 VIP
本題測驗虛擬變數在線性迴歸中的意義。在沒有交乘項的模型 1 中,類別變數(性別 X4)僅影響迴歸線的截距。因此,要檢定不同性別的迴歸線是否相同,只需檢定該變數的係數(β4)是否顯著為零,利用報表中的 t 檢定即可完成。
小題 (四)
在顯著水準 5%下,請檢定 X1iX2i相乘項在模型 2 中是否對解釋反應變數 Y 有顯著貢獻?請試述虛無假設、檢定統計量之值、決策法則和結論,以及所需要之假設。請解釋 X1iX2i該項在迴歸模型的意義。(12 分)
思路引導 VIP
本題主要考驗「擴充模型與縮減模型之部分 F 檢定(Partial F-test)」。考生需從 ANOVA 表中擷取誤差平方和(SSE)與自由度計算 F 統計量,並解釋連續變數與虛擬變數之「交互作用項」在模型中的幾何與實務意義。