高考申論題
107年
[統計] 迴歸分析
第 三 題
📖 題組:
一位資料分析師受託分析一組數據,想要了解一個特定基因,稱之GT 基因,是否有影響老鼠斷奶時的重量。該分析師預計配適模型 1和模型 2。 Y=斷奶時的重量(公克為單位) X1=年齡(以日為單位) X2=品種(品種 A=1,B=0) X3=GT 基因(有此基因=1,無此基因=0) X4=性別(公老鼠=1,母老鼠=0) 模型 1:Yi = β0 + β1X1i + β2X2i + β3X3i + β4X4i + εi 模型 2:Yi = β0 + β1X1i + β2X2i + β3X3i + β4X4i + β5X1iX2i + εi 請使用圖 4 和圖 5 中部分統計電腦套裝軟體輸出變異數分析(ANOVA, Analysis of Variance)回答下列問題: (圖4:模型1 ANOVA,Model DF=4, Error DF=88, Corrected Total=92, SSE=611.2830。包含參數估計表。) (圖5:模型2 ANOVA,Model DF=5, Error DF=87, Corrected Total=92, SSE=517.3508。)
一位資料分析師受託分析一組數據,想要了解一個特定基因,稱之GT 基因,是否有影響老鼠斷奶時的重量。該分析師預計配適模型 1和模型 2。 Y=斷奶時的重量(公克為單位) X1=年齡(以日為單位) X2=品種(品種 A=1,B=0) X3=GT 基因(有此基因=1,無此基因=0) X4=性別(公老鼠=1,母老鼠=0) 模型 1:Yi = β0 + β1X1i + β2X2i + β3X3i + β4X4i + εi 模型 2:Yi = β0 + β1X1i + β2X2i + β3X3i + β4X4i + β5X1iX2i + εi 請使用圖 4 和圖 5 中部分統計電腦套裝軟體輸出變異數分析(ANOVA, Analysis of Variance)回答下列問題: (圖4:模型1 ANOVA,Model DF=4, Error DF=88, Corrected Total=92, SSE=611.2830。包含參數估計表。) (圖5:模型2 ANOVA,Model DF=5, Error DF=87, Corrected Total=92, SSE=517.3508。)
📝 此題為申論題,共 4 小題
小題 (三)
請解釋在考慮模型 1 下,請說明如何檢定老鼠的性別之兩條迴歸線是相同的迴歸線。並請列出虛無假設、對立假設、檢定統計量及決策法則。(4 分)
思路引導 VIP
本題測驗虛擬變數在迴歸模型中的意義。在未放入交互作用項的模型1中,類別變數的影響僅反映在截距的平移,因此檢定兩群體的迴歸線是否相同,等同於進行該虛擬變數係數的 t 檢定(即截距差是否為0)。
小題 (一)
請計算模型 1 和模型 2 的調整的複判定係數 R2(the adjusted R-squared)。試述其意義,並判斷何種模型為佳。(8 分)
思路引導 VIP
本題測驗考生對變異數分析表(ANOVA table)的解讀能力,以及對調整後判定係數(Adjusted R-squared)公式與統計意義的掌握。解題時應先從題目提供的自由度(DF)與誤差平方和(SSE)代入公式求值,接著論述調整後判定係數如何透過「自由度懲罰項」改善一般 R² 會隨變數增加而虛增的缺點,最後依據數值高低給出模型優劣的結論。
小題 (二)
在顯著水準 5%下,請檢定「GT 基因」在模型 1 中是否影響老鼠的重量?(4 分)
思路引導 VIP
這題考查個別迴歸係數的 t 檢定。首先確認模型 1 中代表 GT 基因的變數為 X3,接著在圖 4 的參數估計表(Parameter Estimates)中找到 X3 的 p-value,將其與給定的顯著水準 5% 進行比較,即可得出結論。
小題 (四)
在顯著水準 5%下,請檢定 X1iX2i相乘項在模型 2 中是否對解釋反應變數 Y 有顯著貢獻?請試述虛無假設、檢定統計量之值、決策法則和結論,以及所需要之假設。請解釋 X1iX2i該項在迴歸模型的意義。(12 分)
思路引導 VIP
本題考查「部分 F 檢定 (Partial F-test)」及「交互作用項」的詮釋。看到比較兩個嵌套模型(Nested Models),應優先想到利用縮減模型(模型1)與完整模型(模型2)的誤差平方和(SSE)差異來構建 F 統計量,最後再依據多元線性迴歸的誤差假設與交互作用項的數學意義進行論述。