高考申論題 106年 [統計] 迴歸分析

第一題

📖 題組：
請回答下列問題： (一)圖 1 是探討美國在游泳池溺斃（Swimming-pool drownings）的人數和美國核能發電廠發電（Nuclear power plants）數量數之間的關係，這兩個變數的相關係數為 90.12%。請試述以簡單線性迴歸分析是否具有因果關係或意義？請說明理由。（5 分） (二)一位數據分析師擬研究滷肉飯銷售量受到那些因素所影響。所蒐集的可能解釋變數有價格、店內坪數、客流量、附近店家數、店內位置數、營業時間、店齡、配菜種類、選取肉的部位、米的種類等十個可能的解釋變數。該分析師計畫作複迴歸分析，要選擇重要解釋變數來描述反應變數（滷肉飯銷售量），請試述四種選擇重要變數的方法。又大數據的時代來臨，我們應用迴歸分析，有時會遇到高維度解釋變數的情況，解釋變數的個數（p）大到超過於樣本數（n）的情況，在高維度的解釋變數情況，請試述上述四種選擇重要變數之方法是否仍適用？如果你的答案為不適用，請說明理由。（10 分）

📝 此題為申論題，共 6 小題

小題 (一)

圖 1 是探討美國在游泳池溺斃（Swimming-pool drownings）的人數和美國核能發電廠發電（Nuclear power plants）數量數之間的關係，這兩個變數的相關係數為 90.12%。請試述以簡單線性迴歸分析是否具有因果關係或意義？請說明理由。（5 分）

思路引導 VIP

看到此題，首先必須聯想到統計學的黃金法則：「相關不等於因果」。其次，指出這是一種「偽相關（Spurious correlation）」，並解釋在缺乏學理支持及可能存在潛在干擾變數（如人口成長、時間趨勢）的情況下，此迴歸分析不具任何實質意義。

🤖

AI 詳解

AI 專屬家教

【破題】以簡單線性迴歸分析探討游泳池溺斃人數與核能發電廠發電量之關係，「不具有」因果關係，亦無實質的統計與實務意義。【論述】

小題 (二)

一位數據分析師擬研究滷肉飯銷售量受到那些因素所影響。所蒐集的可能解釋變數有價格、店內坪數、客流量、附近店家數、店內位置數、營業時間、店齡、配菜種類、選取肉的部位、米的種類等十個可能的解釋變數。該分析師計畫作複迴歸分析，要選擇重要解釋變數來描述反應變數（滷肉飯銷售量），請試述四種選擇重要變數的方法。又大數據的時代來臨，我們應用迴歸分析，有時會遇到高維度解釋變數的情況，解釋變數的個數（p）大到超過於樣本數（n）的情況，在高維度的解釋變數情況，請試述上述四種選擇重要變數之方法是否仍適用？如果你的答案為不適用，請說明理由。（10 分）

思路引導 VIP

先回想傳統複迴歸中選擇變數的四大經典方法（向前選擇、向後剔除、逐步迴歸、最佳子集）。
接著思考 p > n 時的數學限制：設計矩陣缺乏滿行秩（Full Column Rank），導致 X'X 不可逆，無法求得傳統 OLS 估計量。

🤖

AI 詳解

AI 專屬家教

【破題】本題考查傳統複迴歸的變數選擇方法，以及在高維度資料（$p > n$）下傳統 OLS 估計失效的原因與模型限制。【論述】

小題 (三)

配適值向量表為Ŷ=HY,寫出矩陣 H。

思路引導 VIP

看到配適值向量 $\hat{Y}$，首先應聯想到最小平方法（OLS）的參數估計式 $\hat{\beta}$ 的矩陣解。透過將 $\hat{\beta} = (X^TX)^{-1}X^TY$ 代入 $\hat{Y} = X\hat{\beta}$ 中，即可輕易分離出與 $Y$ 相乘的帽子矩陣（Hat Matrix）$H$。

🤖

AI 詳解

AI 專屬家教

【解題思路】利用最小平方法（OLS）估計量 $\hat{\beta}$ 的矩陣表示式，代入配適值方程式 $\hat{Y} = X\hat{\beta}$ 進行推導。【詳解】已知：線性迴歸模型為 $Y = X\beta + \varepsilon$。

小題 (四)

求出殘差向量e=Y-Ŷ之變異數-共變異數矩陣。

思路引導 VIP

遇到求殘差向量變異數矩陣的題目，應直覺想到利用投影矩陣（帽子矩陣 H）的對稱與冪等性質。先將殘差向量 e 改寫為 (I-H)ε 的形式，再套用變異數-共變異數的線性轉換公式 Var(AZ) = A Var(Z) A^T 即可順利推導。

🤖

AI 詳解

AI 專屬家教

【解題思路】利用投影矩陣（Hat matrix）的性質，將殘差向量表示為誤差項的線性組合，再利用變異數運算規則求其變異數-共變異數矩陣。【詳解】已知：條件整理

小題 (五)

令A 為對稱矩陣,則Y'AY稱為Y之二次式,將此模型之SSE (error sum of square) = e'e表成二次式,其中Y'和e'分別是Y和e之轉置矩陣。

思路引導 VIP

看到將 SSE 表達為 Y 的二次式，首要聯想最小平方法中殘差向量 e 與反應變數向量 Y 的關係式 e = (I - H)Y。接著利用帽子矩陣 H（Hat Matrix）的兩個重要特性：對稱性（Symmetric）與冪等性（Idempotent），逐步展開 e'e 即可得證。

🤖

AI 詳解

AI 專屬家教

【解題思路】利用最小平方法中殘差向量與帽子矩陣的關係式 $e = (I-H)Y$，並結合矩陣的對稱與冪等特性展開 $e'e$。【詳解】已知：

小題 (六)

求出β之最大概似估計量,對誤差項向量需要什麼假設。

思路引導 VIP

要利用最大概似估計法（MLE）求估計量，必須先有母體的機率分配函數。因此第一步需指明必須加上「誤差項服從常態分配」的假設。接著寫出 Y 的多變量常態概似函數，取對數後對參數向量 β 微分並令為零，即可推導出與最小平方估計（OLS）相同的結果。

🤖

AI 詳解

AI 專屬家教

【解題思路】利用最大概似估計法求解，需先假定誤差項服從多變量常態分配，再透過對數概似函數對 β 求偏導數並令為零來推導。【詳解】已知：原模型為 $Y = X\beta + \varepsilon$，且 $\varepsilon_i$ 期望值為0、變異數為 $\sigma^2$ 且兩兩獨立。

📜 參考法條

參考之查表值：F 分佈 α=0.05，臨界值 F0.05(df1,df2)，t0.05(28)=1.701，t0.025(28)=2.048。 df1=1, df2=28, F=4.196; df1=2, df2=28, F=3.340 df1=1, df2=29, F=4.183; df1=2, df2=29, F=3.328 df1=1, df2=50, F=4.034; df1=2, df2=50, F=3.183 df1=1, df2=52, F=4.027; df1=2, df2=52, F=3.175

📝 同份考卷的其他題目

查看 106年[統計] 迴歸分析全題

第 一 題

小題 (一)

思路引導 VIP

小題 (二)

思路引導 VIP

小題 (三)

思路引導 VIP

小題 (四)

思路引導 VIP

小題 (五)

思路引導 VIP

小題 (六)

思路引導 VIP

📜 參考法條

📝 同份考卷的其他題目

第一題