地特三等申論題
111年
[統計] 迴歸分析
第 一 題
📖 題組:
一位統計分析師分析奧林匹克男子田徑短跑 200 公尺數據,包含 1900 年至 2020 年間舉行的 28 次男子 200 公尺奧林匹克短跑比賽獲金牌的秒數,其中第一次和第二次世界大戰期間沒有舉辦奧運會,而 2020 年奧林匹克運動會因為 COVID-19 疫情實際是 2021 年在日本東京舉行。因此資料包含 year(以年為單位)和 Y(以秒為單位),其散布圖在圖 1。 這位統計分析師重新定義變數,他把“西元年(year)”平減 1963,並定義新的解釋變數 X,也就是 X=year−1963。樣本相關資訊如下,其中 n 為樣本數,請依據這些資訊回答問題。 X_bar = −0.1429, Y_bar = 20.5582, S_XY = Σ(X_i - X_bar)(Y_i - Y_bar) = −888.2171, S_XX = Σ(X_i - X_bar)^2 = 36859.4286, S_YY = Σ(Y_i - Y_bar)^2 = 24.3354
一位統計分析師分析奧林匹克男子田徑短跑 200 公尺數據,包含 1900 年至 2020 年間舉行的 28 次男子 200 公尺奧林匹克短跑比賽獲金牌的秒數,其中第一次和第二次世界大戰期間沒有舉辦奧運會,而 2020 年奧林匹克運動會因為 COVID-19 疫情實際是 2021 年在日本東京舉行。因此資料包含 year(以年為單位)和 Y(以秒為單位),其散布圖在圖 1。 這位統計分析師重新定義變數,他把“西元年(year)”平減 1963,並定義新的解釋變數 X,也就是 X=year−1963。樣本相關資訊如下,其中 n 為樣本數,請依據這些資訊回答問題。 X_bar = −0.1429, Y_bar = 20.5582, S_XY = Σ(X_i - X_bar)(Y_i - Y_bar) = −888.2171, S_XX = Σ(X_i - X_bar)^2 = 36859.4286, S_YY = Σ(Y_i - Y_bar)^2 = 24.3354
📝 此題為申論題,共 3 小題
小題 (一)
請計算(X, Y)的皮爾森相關係數。(5 分)
思路引導 VIP
看到計算皮爾森相關係數,應直接聯想到樣本相關係數的公式 r = S_XY / √(S_XX × S_YY)。直接將題目中提供的離差平方和與交叉乘積和代入公式即可求解。
小題 (二)
該統計分析師配適模型Yi = β0 + β1Xi + εi,此處εi是誤差項。請寫出以最小平方估計法所得到的估計迴歸線,並推導共變異數Cov(β̂0, β̂1)。(10 分)
思路引導 VIP
面對這類計算與推導題,首先需熟記簡單線性迴歸 OLS 估計量的公式:斜率 $\hat{\beta}1 = S{XY} / S_{XX}$,截距 $\hat{\beta}_0 = \bar{Y} - \hat{\beta}_1 \bar{X}$。在推導共變異數時,關鍵在於將 $\hat{\beta}_0$ 展開為 $\bar{Y} - \hat{\beta}_1 \bar{X}$,並利用變異數性質與獨立性證明 $Cov(\bar{Y}, \hat{\beta}_1)=0$,進而得出 $-\bar{X}Var(\hat{\beta}_1)$ 的結果。
小題 (三)
在顯著水準 α = 0.05 之下,請檢定 H0 : β1 = 0 是否顯著?請詳述檢定統計量之值、決策法則和結論。請問年份和獲金牌的秒數之間是否存在線性關係?以此資料是否可以推論人類在田徑短跑越跑越快?t 分配臨界值,t_0.025(26) = −2.0555, t_0.025(27) = −2.0518。(10 分)
思路引導 VIP
這是一道結合計算與統計概念辨析的經典考題。首先,需利用給定的變異與共變異數(Sxx, Sxy, Syy)計算斜率估計值及其標準誤,以執行 t 檢定。其次,在回答「是否能推論越跑越快」時,務必展現統計專業的批判思維,點出線性模型在現實世界中的「外插風險(Extrapolation)」與「非線性(生理極限)」問題。