高考申論題
108年
[統計] 迴歸分析
第 一 題
📖 題組:
註:所有計算至小數點第 2 位。
註:所有計算至小數點第 2 位。
📝 此題為申論題,共 2 小題
小題 (一)
考慮下列涉及 3 條可能不同截距但相同斜率之直線的簡單線性迴歸模式:
y1i = β01 + β1x1i + ϵ1i,
y2i = β02 + β1x2i + ϵ2i,
y3i = β03 + β1x3i + ϵ3i,
i = 1, ⋯ , n,
其中ϵ11,..,ϵ1n, ϵ21,..,ϵ2n, ϵ31,..,ϵ3n為彼此獨立且期望值為0而變異數皆為σ^2的隨機誤差。請利用上述所有資料求出β01, β02, β03, β1的最小平方估計量(least squares estimator)(β_01) ̂, (β_02) ̂, (β_03) ̂, (β_1) ̂及(β_1) ̂的變異數Var((β_1) ̂)。(10 分)
y1i = β01 + β1x1i + ϵ1i,
y2i = β02 + β1x2i + ϵ2i,
y3i = β03 + β1x3i + ϵ3i,
i = 1, ⋯ , n,
其中ϵ11,..,ϵ1n, ϵ21,..,ϵ2n, ϵ31,..,ϵ3n為彼此獨立且期望值為0而變異數皆為σ^2的隨機誤差。請利用上述所有資料求出β01, β02, β03, β1的最小平方估計量(least squares estimator)(β_01) ̂, (β_02) ̂, (β_03) ̂, (β_1) ̂及(β_1) ̂的變異數Var((β_1) ̂)。(10 分)
思路引導 VIP
看到這題,首先要辨識出這是一個「共用斜率參數,但各組截距設定不同」的聯合迴歸(Pooled Regression)問題。思考時不要把三條線分開獨立估計,而是應該把它們「堆疊(Stack)」成一個大的矩陣形式 Y* = Xβ + ϵ。特別注意第三條線的截距是「常數 1」而不是未知參數,所以要把 1 移到等式左邊,當作已知的反應變數平移。在建構設計矩陣 X* 時,應該包含三個行向量:第一組的虛擬變數、第二組的虛擬變數、以及全部的 x 值。接著利用正規方程式 (X*^T X*)^(-1) X*^T Y* 即可聯立求解。推導變異數時,要小心第三組的 X 是沒有中心化(未減去平均數)的,這是一個大陷阱!
小題 (二)
某國政府統計分析師利用迴歸方法分析該國經濟狀況的評估分數Y以及影響該國經濟狀況之重要指數X,其所用之模式為 Y = β0 + β1X + ϵ,其中隨機誤差ϵ有下列之機率密度函數表達:f(x) = e^x / (1 + e^x)^2 , -∞ < x < ∞。當Y值大於0時,則該國的經濟評估為正向發展;反之即為負向發展。考慮另一變數 Q,當Y>0,則 Q=1,反之當Y≤0,則 Q=0,即 Q 為該國經濟是否為正向發展的指標。試求出一函數 h 使得 h(μ) = β0+β1X,其中μ = E(Q)為 Q 的期望值。(10 分)
思路引導 VIP
這是一道引導推導「羅吉斯迴歸(Logistic Regression)」連結函數(Link Function)的經典題型。首先,釐清 Q 是一個伯努利(Bernoulli)隨機變數(0 或 1),所以 E(Q) = P(Q=1) = P(Y>0)。接著,將 Y 的模式代入 P(Y>0),即 P(β0 + β1X + ϵ > 0) = P(ϵ > -β0 - β1X)。觀察題目給的誤差項 ϵ 的 PDF,這是標準羅吉斯分配(Standard Logistic Distribution),你需要先求出它的 CDF,再利用羅吉斯分配對稱於 0 的特性(或直接積分)算出機率 μ。最後,把 μ 表達成 β0+β1X 的函數後,求反函數,即可得到題求的連結函數 h(μ)。