高考申論題
106年
[統計] 迴歸分析
第 一 題
📖 題組:
請回答下列問題: (一)圖 1 是探討美國在游泳池溺斃(Swimming-pool drownings)的人數和美國核能發電廠發電(Nuclear power plants)數量數之間的關係,這兩個變數的相關係數為 90.12%。請試述以簡單線性迴歸分析是否具有因果關係或意義?請說明理由。(5 分) (二)一位數據分析師擬研究滷肉飯銷售量受到那些因素所影響。所蒐集的可能解釋變數有價格、店內坪數、客流量、附近店家數、店內位置數、營業時間、店齡、配菜種類、選取肉的部位、米的種類等十個可能的解釋變數。該分析師計畫作複迴歸分析,要選擇重要解釋變數來描述反應變數(滷肉飯銷售量),請試述四種選擇重要變數的方法。又大數據的時代來臨,我們應用迴歸分析,有時會遇到高維度解釋變數的情況,解釋變數的個數(p)大到超過於樣本數(n)的情況,在高維度的解釋變數情況,請試述上述四種選擇重要變數之方法是否仍適用?如果你的答案為不適用,請說明理由。(10 分)
請回答下列問題: (一)圖 1 是探討美國在游泳池溺斃(Swimming-pool drownings)的人數和美國核能發電廠發電(Nuclear power plants)數量數之間的關係,這兩個變數的相關係數為 90.12%。請試述以簡單線性迴歸分析是否具有因果關係或意義?請說明理由。(5 分) (二)一位數據分析師擬研究滷肉飯銷售量受到那些因素所影響。所蒐集的可能解釋變數有價格、店內坪數、客流量、附近店家數、店內位置數、營業時間、店齡、配菜種類、選取肉的部位、米的種類等十個可能的解釋變數。該分析師計畫作複迴歸分析,要選擇重要解釋變數來描述反應變數(滷肉飯銷售量),請試述四種選擇重要變數的方法。又大數據的時代來臨,我們應用迴歸分析,有時會遇到高維度解釋變數的情況,解釋變數的個數(p)大到超過於樣本數(n)的情況,在高維度的解釋變數情況,請試述上述四種選擇重要變數之方法是否仍適用?如果你的答案為不適用,請說明理由。(10 分)
📝 此題為申論題,共 6 小題
小題 (一)
圖 1 是探討美國在游泳池溺斃(Swimming-pool drownings)的人數和美國核能發電廠發電(Nuclear power plants)數量數之間的關係,這兩個變數的相關係數為 90.12%。請試述以簡單線性迴歸分析是否具有因果關係或意義?請說明理由。(5 分)
思路引導 VIP
看到此題,首先必須聯想到統計學的黃金法則:「相關不等於因果」。其次,指出這是一種「偽相關(Spurious correlation)」,並解釋在缺乏學理支持及可能存在潛在干擾變數(如人口成長、時間趨勢)的情況下,此迴歸分析不具任何實質意義。
小題 (二)
一位數據分析師擬研究滷肉飯銷售量受到那些因素所影響。所蒐集的可能解釋變數有價格、店內坪數、客流量、附近店家數、店內位置數、營業時間、店齡、配菜種類、選取肉的部位、米的種類等十個可能的解釋變數。該分析師計畫作複迴歸分析,要選擇重要解釋變數來描述反應變數(滷肉飯銷售量),請試述四種選擇重要變數的方法。又大數據的時代來臨,我們應用迴歸分析,有時會遇到高維度解釋變數的情況,解釋變數的個數(p)大到超過於樣本數(n)的情況,在高維度的解釋變數情況,請試述上述四種選擇重要變數之方法是否仍適用?如果你的答案為不適用,請說明理由。(10 分)
思路引導 VIP
- 先回想傳統複迴歸中選擇變數的四大經典方法(向前選擇、向後剔除、逐步迴歸、最佳子集)。
- 接著思考 p > n 時的數學限制:設計矩陣缺乏滿行秩(Full Column Rank),導致 X'X 不可逆,無法求得傳統 OLS 估計量。
小題 (三)
配適值向量表為Ŷ=HY,寫出矩陣 H。
思路引導 VIP
看到配適值向量 $\hat{Y}$,首先應聯想到最小平方法(OLS)的參數估計式 $\hat{\beta}$ 的矩陣解。透過將 $\hat{\beta} = (X^TX)^{-1}X^TY$ 代入 $\hat{Y} = X\hat{\beta}$ 中,即可輕易分離出與 $Y$ 相乘的帽子矩陣(Hat Matrix)$H$。
小題 (四)
求出殘差向量e=Y-Ŷ之變異數-共變異數矩陣。
思路引導 VIP
遇到求殘差向量變異數矩陣的題目,應直覺想到利用投影矩陣(帽子矩陣 H)的對稱與冪等性質。先將殘差向量 e 改寫為 (I-H)ε 的形式,再套用變異數-共變異數的線性轉換公式 Var(AZ) = A Var(Z) A^T 即可順利推導。
小題 (五)
令A 為對稱矩陣,則Y'AY稱為Y之二次式,將此模型之SSE (error sum of square) = e'e表成二次式,其中Y'和e'分別是Y和e之轉置矩陣。
思路引導 VIP
看到將 SSE 表達為 Y 的二次式,首要聯想最小平方法中殘差向量 e 與反應變數向量 Y 的關係式 e = (I - H)Y。接著利用帽子矩陣 H(Hat Matrix)的兩個重要特性:對稱性(Symmetric)與冪等性(Idempotent),逐步展開 e'e 即可得證。
小題 (六)
求出β之最大概似估計量,對誤差項向量需要什麼假設。
思路引導 VIP
要利用最大概似估計法(MLE)求估計量,必須先有母體的機率分配函數。因此第一步需指明必須加上「誤差項服從常態分配」的假設。接著寫出 Y 的多變量常態概似函數,取對數後對參數向量 β 微分並令為零,即可推導出與最小平方估計(OLS)相同的結果。
📜 參考法條
參考之查表值:F 分佈 α=0.05,臨界值 F0.05(df1,df2),t0.05(28)=1.701,t0.025(28)=2.048。
df1=1, df2=28, F=4.196; df1=2, df2=28, F=3.340
df1=1, df2=29, F=4.183; df1=2, df2=29, F=3.328
df1=1, df2=50, F=4.034; df1=2, df2=50, F=3.183
df1=1, df2=52, F=4.027; df1=2, df2=52, F=3.175