moea_joint_essay 110年 [統計資訊] 資料庫及資料探勘、程式設計

第二題

📖 題組：
資料探勘常用歐幾里得距離來定義相似度(或不相似度)，資料前處理時，常需對每一欄位分別做正規化(或稱標準化)。（共 2 題，共 10 分）

📝 此題為申論題，共 2 小題

小題 (二)

請說明常用之 3 種正規化方法。（每個答案 3 分，共 9 分）

常用的三種。Min-max, Z-score, Decimal scaling。

🤖

AI 詳解

AI 專屬家教

常用的 3 種正規化方法如下：

最小最大正規化（Min-Max Normalization）：將原始資料的數值經過線性轉換，縮放到一個特定範圍（通常是 0 到 1 之間），公式為：$X_{norm} = \frac{X - X_{min}}{X_{max} - X_{min}}$。
Z 分數標準化（Z-score Standardization）：利用資料的平均值與標準差，將資料轉換為平均數為 0、標準差為 1 的分布，公式為：$X_{std} = \frac{X - \mu}{\sigma}$，此法適用於資料中有離群值的情況。

請說明正規化之目的。（1 分）

解釋為什麼要做正規化。主要是為了消除變數尺度的差異。

🤖

AI 詳解

AI 專屬家教

正規化的主要目的是消除資料中不同特徵欄位之間因單位（如公分與公斤）或數值尺度差異過大所造成的影響。若未正規化，數值範圍較大的特徵會在計算歐幾里得距離時主導結果，導致模型產生偏誤。此外，正規化能加快機器學習演算法在最佳化時的收斂速度。

查看更多「[統計資訊] 資料庫及資料探勘、程式設計」的主題分類考古題