地特三等申論題
109年
[統計] 迴歸分析
第 一 題
📖 題組:
二、
二、
📝 此題為申論題,共 3 小題
小題 (一)
一位分析師受託分析一組資料。資料來自於20位25歲至34歲的健康女性,其中包括反應變數 Y(身體脂肪)和三個解釋變數(X1:皮褶厚度,X2:大腿圓周和 X3:中臂圓周)用作預測身體脂肪。該分析師初步配適一個迴歸模型如下:模型1 Y_i = $\beta_0 + \beta_1 X_{1i} + \beta_2 X_{2i} + \beta_3 X_{3i} + \varepsilon_i, i = 1, \cdots, 20$。另外,表1計算解釋變數之間的解釋能力。(表1顯示: X1對X2,X3的R^2為99.86%; X2對X1,X3為99.82%; X3對X1,X2為99.04%) 請由表1計算變異數膨脹因子(variance inflation factor, VIF)評論該分析師所配適的迴歸模型1是否合適?如果不合適,請詳細說明原因和解決方法。(8分)
思路引導 VIP
看到解釋變數之間的 R² 值高達 99%,應立刻聯想到「多元共線性(Multicollinearity)」問題。解題需先代入公式 VIF = 1 / (1 - R²) 計算各變數的變異數膨脹因子,利用 VIF > 10 的經驗法則判斷其嚴重性,接著再有條理地論述共線性對模型估計的不良影響,並提出實務上常見的補救措施。
小題 (二)
一位分析師受託分析影響縣市首長滿意度的重要因素。滿意度分數 Y(以1~10為評分範圍,分數愈高代表愈滿意)作為反應變數。該分析師找到一些重要的解釋變數。依據他所配適的複迴歸模型,有些預測值有超過10的情況。請問該分析師所配適的複迴歸模型是否合適?如果不合適,請詳細說明原因和解決的方法。(6分)
思路引導 VIP
看到預測值超出合理範圍(大於 10),首先應直覺想到傳統線性迴歸的「無界限(unbounded)」特性。接著由淺入深分析,說明這不僅是預測值不合邏輯的問題,更會引發殘差非常態、變異數不齊一等違反 OLS 基本假設的嚴重後果。最後針對滿意度這類設限變數或次序變數,提出對應的替代模型(如次序羅吉斯、Logit變數轉換或 Tobit 模型)。
小題 (三)
一位分析師分析2017年1月至2019年12月的旅遊人數月資料。該分析師配適的迴歸模型如下:模型2 ln(y_t) = $\beta_0 + \beta_t t + \beta_2 M_1 + \beta_3 M_2 + \cdots + \beta_{12} M_{11} + \varepsilon_t, \varepsilon_t \sim^{iid} N(0, \sigma^2)$此處 t 是時間,\varepsilon_t 為獨立且具有共同分配其平均數為0變異數 $\sigma^2$的常態分配,M_i是虛擬變數,第 i 個月為1,其他月份為0,i=1, 2,…, 11。請說明在線性迴歸模型下,如何檢查誤差項的所有假設是否有違反。圖2是模型2的標準化殘差值(studentized residual)對應時間的殘差圖。請問該分析師所配適的複迴歸模型是否合適?如果不合適,請詳細說明原因和解決的方法。(10分)
思路引導 VIP
看到這題,首先回憶線性迴歸誤差項的基本假設(常態性、獨立性、變異數同質性),並列出對應的統計檢定與診斷圖形。接著觀察題目提供的殘差對時間圖,尋找圖中的明顯規律(如 U 型非隨機趨勢),藉此判斷模型違反了獨立性或遺漏非線性趨勢變數,最後提出合理的補救措施(如加入多項式時間項或轉換為時間序列模型)。