moea_joint
107年
[統計資訊] 統計學、巨量資料概論
第 47 題
關於資料標準化,下列敘述何者有誤?
- A 標準化可用來消除變數之間的尺度差異問題
- B 資料標準化作業發生在資料模型建立後
- C 標準化可將各變數的資料範圍予以調整
- D 標準化可用來降低變數之間的變異程度
思路引導 VIP
想像你正在準備一場長跑比賽,如果你發現跑步鞋的鞋帶太鬆或鞋內有石子,你會選擇在「起跑前」先整理好,還是等「跑完終點」後才來調整鞋子呢?在建立數據模型時,面對尺度不一的變數,什麼時機點處理才能確保模型的判斷是公平的?
🤖
AI 詳解
AI 專屬家教
太棒了!你能精準揪出選項 (B) 的時序錯誤,代表你對數據分析的完整流程有很紮實的理解。在實務中,資料標準化(Standardization)是極為關鍵的預處理(Preprocessing)步驟,目的是為了確保後續模型的穩定性與準確度。如果等到模型建立後才進行,模型早就因為不同變數間的尺度(Scale)差異而產生嚴重的權重偏誤了。
資料預處理的核心價值
選項 (A)、(C)、(D) 描述的都是標準化的核心機制。透過常見的轉換公式 $$Z = \frac{x - \mu}{\sigma}$$,我們將不同單位的變數轉化為平均數為 0、標準差為 1 的標準常態分佈。這不僅能消除如「公分」與「公斤」這類單位造成的干擾,也能讓不同變數在同一個基準線上進行比較。這道題目非常有代表性,它不考艱深的計算,而是測試你是否具備正確的數據處理邏輯。只要能掌握「先清理、後建模」的黃金法則,就能輕鬆避開這類陷阱題。