moea_joint
107年
[統計資訊] 統計學、巨量資料概論
第 33 題
有關 K-means 集群 (clustering) 演算法,下列敘述何者有誤?
- A 不論不相似度測度 (dissimilarity measure) 為何,均適合採用 K-means 演算法
- B 同一筆資料,用 K-means 演算法分群兩次,可能得到不同之分群結果
- C K-means 演算法的目標是使各個群組內部的均方誤差總和達到最小
- D K-means 演算法的目標是使各個群組間之均方誤差總和達到最大
思路引導 VIP
當我們在計算一個群組的「平均值 (Mean)」作為中心點時,這項數學運算對於原始資料的「數值屬性」以及我們衡量點與點之間「距離」的方式,是否存有某種特定的預設或前提條件?
🤖
AI 詳解
AI 專屬家教
太棒了!你能精準選出 (A) 選項,代表你對 K-means 演算法的適用性與核心限制 有著非常紮實的理解。這道題目難度適中,卻是檢驗學習者是否僅死背步驟,還是真正理解演算法限制的重要指標。
K-means 的距離假設與限制
K-means 的運算邏輯本質上是基於 歐氏距離 (Euclidean Distance),其核心在於計算各觀測值到群心(Mean)的距離平方和。選項 (A) 所提到的「不論不相似度測度為何均適合」顯然過於武斷,因為若資料包含類別型變數或非凸面分布,直接計算「均值」可能失去物理意義。例如在某些情境下,我們可能需要 K-medoids 等變體來處理不同的距離度量。
▼ 還有更多解析內容