高考申論題 106年 [統計] 迴歸分析

第二題

📖 題組：
請回答下列問題： (一)圖 1 是探討美國在游泳池溺斃（Swimming-pool drownings）的人數和美國核能發電廠發電（Nuclear power plants）數量數之間的關係，這兩個變數的相關係數為 90.12%。請試述以簡單線性迴歸分析是否具有因果關係或意義？請說明理由。（5 分） (二)一位數據分析師擬研究滷肉飯銷售量受到那些因素所影響。所蒐集的可能解釋變數有價格、店內坪數、客流量、附近店家數、店內位置數、營業時間、店齡、配菜種類、選取肉的部位、米的種類等十個可能的解釋變數。該分析師計畫作複迴歸分析，要選擇重要解釋變數來描述反應變數（滷肉飯銷售量），請試述四種選擇重要變數的方法。又大數據的時代來臨，我們應用迴歸分析，有時會遇到高維度解釋變數的情況，解釋變數的個數（p）大到超過於樣本數（n）的情況，在高維度的解釋變數情況，請試述上述四種選擇重要變數之方法是否仍適用？如果你的答案為不適用，請說明理由。（10 分）

📝 此題為申論題，共 2 小題

小題 (二)

一位數據分析師擬研究滷肉飯銷售量受到那些因素所影響。所蒐集的可能解釋變數有價格、店內坪數、客流量、附近店家數、店內位置數、營業時間、店齡、配菜種類、選取肉的部位、米的種類等十個可能的解釋變數。該分析師計畫作複迴歸分析，要選擇重要解釋變數來描述反應變數（滷肉飯銷售量），請試述四種選擇重要變數的方法。又大數據的時代來臨，我們應用迴歸分析，有時會遇到高維度解釋變數的情況，解釋變數的個數（p）大到超過於樣本數（n）的情況，在高維度的解釋變數情況，請試述上述四種選擇重要變數之方法是否仍適用？如果你的答案為不適用，請說明理由。（10 分）

思路引導 VIP

先回想傳統複迴歸中選擇變數的四大經典方法（向前選擇、向後剔除、逐步迴歸、最佳子集）。
接著思考 p > n 時的數學限制：設計矩陣缺乏滿行秩（Full Column Rank），導致 X'X 不可逆，無法求得傳統 OLS 估計量。

🤖

AI 詳解

AI 專屬家教

【破題】本題考查傳統複迴歸的變數選擇方法，以及在高維度資料（$p > n$）下傳統 OLS 估計失效的原因與模型限制。【論述】

小題 (一)

圖 1 是探討美國在游泳池溺斃（Swimming-pool drownings）的人數和美國核能發電廠發電（Nuclear power plants）數量數之間的關係，這兩個變數的相關係數為 90.12%。請試述以簡單線性迴歸分析是否具有因果關係或意義？請說明理由。（5 分）

思路引導 VIP

看到此題，首先必須聯想到統計學的黃金法則：「相關不等於因果」。其次，指出這是一種「偽相關（Spurious correlation）」，並解釋在缺乏學理支持及可能存在潛在干擾變數（如人口成長、時間趨勢）的情況下，此迴歸分析不具任何實質意義。

🤖

AI 詳解

AI 專屬家教

【破題】以簡單線性迴歸分析探討游泳池溺斃人數與核能發電廠發電量之關係，「不具有」因果關係，亦無實質的統計與實務意義。【論述】

📜 參考法條

參考之查表值：F 分佈 α=0.05，臨界值 F0.05(df1,df2)，t0.05(28)=1.701，t0.025(28)=2.048。 df1=1, df2=28, F=4.196; df1=2, df2=28, F=3.340 df1=1, df2=29, F=4.183; df1=2, df2=29, F=3.328 df1=1, df2=50, F=4.034; df1=2, df2=50, F=3.183 df1=1, df2=52, F=4.027; df1=2, df2=52, F=3.175

🏷️ 相關主題

迴歸分析之模型建構與診斷

查看更多「[統計] 迴歸分析」的主題分類考古題

📝 同份考卷的其他題目

查看 106年[統計] 迴歸分析全題

第 二 題

小題 (二)

思路引導 VIP

小題 (一)

思路引導 VIP

📜 參考法條

📎 觀念相似題

🏷️ 相關主題

📝 同份考卷的其他題目

第二題