高考申論題
106年
[統計] 迴歸分析
第 二 題
📖 題組:
請回答下列問題: (一)圖 1 是探討美國在游泳池溺斃(Swimming-pool drownings)的人數和美國核能發電廠發電(Nuclear power plants)數量數之間的關係,這兩個變數的相關係數為 90.12%。請試述以簡單線性迴歸分析是否具有因果關係或意義?請說明理由。(5 分) (二)一位數據分析師擬研究滷肉飯銷售量受到那些因素所影響。所蒐集的可能解釋變數有價格、店內坪數、客流量、附近店家數、店內位置數、營業時間、店齡、配菜種類、選取肉的部位、米的種類等十個可能的解釋變數。該分析師計畫作複迴歸分析,要選擇重要解釋變數來描述反應變數(滷肉飯銷售量),請試述四種選擇重要變數的方法。又大數據的時代來臨,我們應用迴歸分析,有時會遇到高維度解釋變數的情況,解釋變數的個數(p)大到超過於樣本數(n)的情況,在高維度的解釋變數情況,請試述上述四種選擇重要變數之方法是否仍適用?如果你的答案為不適用,請說明理由。(10 分)
請回答下列問題: (一)圖 1 是探討美國在游泳池溺斃(Swimming-pool drownings)的人數和美國核能發電廠發電(Nuclear power plants)數量數之間的關係,這兩個變數的相關係數為 90.12%。請試述以簡單線性迴歸分析是否具有因果關係或意義?請說明理由。(5 分) (二)一位數據分析師擬研究滷肉飯銷售量受到那些因素所影響。所蒐集的可能解釋變數有價格、店內坪數、客流量、附近店家數、店內位置數、營業時間、店齡、配菜種類、選取肉的部位、米的種類等十個可能的解釋變數。該分析師計畫作複迴歸分析,要選擇重要解釋變數來描述反應變數(滷肉飯銷售量),請試述四種選擇重要變數的方法。又大數據的時代來臨,我們應用迴歸分析,有時會遇到高維度解釋變數的情況,解釋變數的個數(p)大到超過於樣本數(n)的情況,在高維度的解釋變數情況,請試述上述四種選擇重要變數之方法是否仍適用?如果你的答案為不適用,請說明理由。(10 分)
📝 此題為申論題,共 2 小題
小題 (二)
一位數據分析師擬研究滷肉飯銷售量受到那些因素所影響。所蒐集的可能解釋變數有價格、店內坪數、客流量、附近店家數、店內位置數、營業時間、店齡、配菜種類、選取肉的部位、米的種類等十個可能的解釋變數。該分析師計畫作複迴歸分析,要選擇重要解釋變數來描述反應變數(滷肉飯銷售量),請試述四種選擇重要變數的方法。又大數據的時代來臨,我們應用迴歸分析,有時會遇到高維度解釋變數的情況,解釋變數的個數(p)大到超過於樣本數(n)的情況,在高維度的解釋變數情況,請試述上述四種選擇重要變數之方法是否仍適用?如果你的答案為不適用,請說明理由。(10 分)
思路引導 VIP
- 先回想傳統複迴歸中選擇變數的四大經典方法(向前選擇、向後剔除、逐步迴歸、最佳子集)。
- 接著思考 p > n 時的數學限制:設計矩陣缺乏滿行秩(Full Column Rank),導致 X'X 不可逆,無法求得傳統 OLS 估計量。
小題 (一)
圖 1 是探討美國在游泳池溺斃(Swimming-pool drownings)的人數和美國核能發電廠發電(Nuclear power plants)數量數之間的關係,這兩個變數的相關係數為 90.12%。請試述以簡單線性迴歸分析是否具有因果關係或意義?請說明理由。(5 分)
思路引導 VIP
看到此題,首先必須聯想到統計學的黃金法則:「相關不等於因果」。其次,指出這是一種「偽相關(Spurious correlation)」,並解釋在缺乏學理支持及可能存在潛在干擾變數(如人口成長、時間趨勢)的情況下,此迴歸分析不具任何實質意義。
📜 參考法條
參考之查表值:F 分佈 α=0.05,臨界值 F0.05(df1,df2),t0.05(28)=1.701,t0.025(28)=2.048。
df1=1, df2=28, F=4.196; df1=2, df2=28, F=3.340
df1=1, df2=29, F=4.183; df1=2, df2=29, F=3.328
df1=1, df2=50, F=4.034; df1=2, df2=50, F=3.183
df1=1, df2=52, F=4.027; df1=2, df2=52, F=3.175