免費開始練習
moea_joint_essay 110年 [統計資訊] 資料庫及資料探勘、程式設計

第 二 題

📖 題組:
資料探勘常用歐幾里得距離來定義相似度(或不相似度),資料前處理時,常需對每一欄位分別做正規化(或稱標準化)。(共 2 題,共 10 分)
📝 此題為申論題,共 2 小題

小題 (二)

請說明常用之 3 種正規化方法。(每個答案 3 分,共 9 分)

思路引導 VIP

常用的三種。Min-max, Z-score, Decimal scaling。

🤖
AI 詳解
AI 專屬家教

常用的 3 種正規化方法如下:

  1. 最小最大正規化(Min-Max Normalization):將原始資料的數值經過線性轉換,縮放到一個特定範圍(通常是 0 到 1 之間),公式為:$X_{norm} = \frac{X - X_{min}}{X_{max} - X_{min}}$。
  2. Z 分數標準化(Z-score Standardization):利用資料的平均值與標準差,將資料轉換為平均數為 0、標準差為 1 的分布,公式為:$X_{std} = \frac{X - \mu}{\sigma}$,此法適用於資料中有離群值的情況。

小題 (一)

請說明正規化之目的。(1 分)

思路引導 VIP

解釋為什麼要做正規化。主要是為了消除變數尺度的差異。

🤖
AI 詳解
AI 專屬家教

正規化的主要目的是消除資料中不同特徵欄位之間因單位(如公分與公斤)或數值尺度差異過大所造成的影響。若未正規化,數值範圍較大的特徵會在計算歐幾里得距離時主導結果,導致模型產生偏誤。此外,正規化能加快機器學習演算法在最佳化時的收斂速度。

🏷️ 相關主題

資料探勘之分類與分群演算法應用
查看更多「[統計資訊] 資料庫及資料探勘、程式設計」的主題分類考古題