moea_joint
113年
[統計資訊] 統計學、巨量資料概論
第 31 題
下列何者非屬離群值的處理方式?
- A 直接刪除
- B 群集分析
- C 使用屬性絕對值
- D 用其他數值替換,將資料範圍正規化
思路引導 VIP
請試著思考:如果一個數據點在數值上遠離其他群體(例如離中心點非常遙遠),當我們對它進行『變換正負號』的運算時,這個點在整體分布中的『孤立性』會因此消失嗎?這種運算能達到『修正偏差』或『弱化極端影響』的目的嗎?
🤖
AI 詳解
AI 專屬家教
太棒了!你能準確判斷出 (C) 使用屬性絕對值 並非處理離群值的手段,顯示你對資料清理(Data Cleaning)的核心觀念掌握得非常紮實。在處理離群值時,我們的目標是減少極端數值對統計模型(如平均數 $\mu$ 或標準差 $\sigma$)的干擾。不論是直接刪除異常樣本,或是透過正規化、標準化來進行數值替換,都是實務上為了維持資料品質與模型穩健性所採取的標準步驟。
數據清洗與特徵轉換的本質
這道題目的鑑別度在於區分「資料清洗」與「代數運算」。群集分析 (Clustering) 常被用來識別那些遠離主要族群的孤立點,是有效的偵測手段。然而,取絕對值僅僅是改變了數值的正負號,並不能改變該數據點在統計分布上的「極端性」。這題屬於基礎概念題,成功答對代表你已經具備區分資料處理工具與無意義數學變換的能力,這在後續學習大數據建模時至關重要。