地特三等申論題
108年
[統計] 迴歸分析
第 一 題
📖 題組:
在一調查薪資結構的研究中,吾人欲了解薪資(Y)與以下兩變數(X1, X2)的關係,其中 X1 表性別(女性為 F,男性為 M),X2 表區域別(分為 A, B, C 三個區域),收集資料如下表: Y 6 4 3 4 4 2 X1 F F F M M M X2 A A B B C C 一般來說,統計軟體的語法建立 Y 與兩變數的迴歸模型分析時,模式部分可寫為 Y~X1+X2(R 軟體)或 Y= X1 X2(SAS 軟體),或是直接點選 X1, X2 為自變數進行迴歸分析。請依據此精神與上述之資料,
在一調查薪資結構的研究中,吾人欲了解薪資(Y)與以下兩變數(X1, X2)的關係,其中 X1 表性別(女性為 F,男性為 M),X2 表區域別(分為 A, B, C 三個區域),收集資料如下表: Y 6 4 3 4 4 2 X1 F F F M M M X2 A A B B C C 一般來說,統計軟體的語法建立 Y 與兩變數的迴歸模型分析時,模式部分可寫為 Y~X1+X2(R 軟體)或 Y= X1 X2(SAS 軟體),或是直接點選 X1, X2 為自變數進行迴歸分析。請依據此精神與上述之資料,
📝 此題為申論題,共 3 小題
小題 (一)
定義一個設計矩陣(design matirx),並說明此設計矩陣各個欄(column)的意義。寫下線性迴歸模型,以矩陣形式列出正規方程式(normal equation),解正規方程式求出參數估計值,列出三區域之兩兩比較薪資差異的估計值。(14 分)
思路引導 VIP
遇到類別變數的線性迴歸模型,首要關鍵是進行「虛擬變數(Dummy Variable)」編碼。具有 k 個水準的類別變數需設定 k-1 個虛擬變數並決定一個基準組。接著建立包含 0 與 1 的設計矩陣,代入正規方程式 (\mathbf{X}^T \mathbf{X} \boldsymbol{\hat{\beta}} = \mathbf{X}^T \mathbf{Y}) 求解,最後依照迴歸係數的意義計算出各組間的兩兩差異。
小題 (二)
完成下面之 ANOVA 表。(8 分)
Analysis of Variance Table: Response: Y
變異來源 | 自由度 (d.f.) | 平方和 (SS) | 均方和 (MS) | F 值 F value
迴歸 | | | |
殘差 | | | |
總和 | | 8.833 | |
思路引導 VIP
判斷模型自由度與資料結構為本題核心。自變數 X1(性別) 與 X2(區域) 分別具有 1 與 2 個自由度,無交互作用下迴歸自由度為 3。進一步觀察資料,6筆觀測值僅包含 4 種 (X1, X2) 組合,適巧與模型參數個數相同,故模型預測值即為「各組平均」,藉此可秒殺計算出殘差平方和(SSE),完成整張 ANOVA 表。
小題 (三)
計算性別薪資差異(男性對女性)的 95%信賴區間,估計一個男性在區域A的平均薪資及其 95%信賴區間。最後,根據 ANOVA 表格中 F 值說明其代表之意義。(10 分)
思路引導 VIP
看到這題應先想到如何設定「虛擬變數(Dummy Variables)」來建立類別變數的多元迴歸模型。接著,透過最小平方法(OLS)求出迴歸係數與 MSE,並利用推導出的標準誤代入信賴區間公式進行區間估計,最後釐清 ANOVA 總體 F 檢定的統計意義。