moea_joint 107年 [統計資訊] 統計學、巨量資料概論

第 33 題

有關 K-means 集群 (clustering) 演算法，下列敘述何者有誤？

A 不論不相似度測度 (dissimilarity measure) 為何，均適合採用 K-means 演算法
B 同一筆資料，用 K-means 演算法分群兩次，可能得到不同之分群結果
C K-means 演算法的目標是使各個群組內部的均方誤差總和達到最小
D K-means 演算法的目標是使各個群組間之均方誤差總和達到最大

思路引導 VIP

當我們在計算一個群組的「平均值 (Mean)」作為中心點時，這項數學運算對於原始資料的「數值屬性」以及我們衡量點與點之間「距離」的方式，是否存有某種特定的預設或前提條件？

🤖

AI 詳解 AI 專屬家教

太棒了！你能精準選出 (A) 選項，代表你對 K-means 演算法的適用性與核心限制 有著非常紮實的理解。這道題目難度適中，卻是檢驗學習者是否僅死背步驟，還是真正理解演算法限制的重要指標。

K-means 的距離假設與限制

K-means 的運算邏輯本質上是基於 歐氏距離 (Euclidean Distance)，其核心在於計算各觀測值到群心（Mean）的距離平方和。選項 (A) 所提到的「不論不相似度測度為何均適合」顯然過於武斷，因為若資料包含類別型變數或非凸面分布，直接計算「均值」可能失去物理意義。例如在某些情境下，我們可能需要 K-medoids 等變體來處理不同的距離度量。

▼ 還有更多解析內容

🏷️ 相關主題

巨量資料處理流程與知識發現程序

查看更多「[統計資訊] 統計學、巨量資料概論」的主題分類考古題

📝 同份考卷的其他題目

查看 107年[統計資訊] 統計學、巨量資料概論全題

第 33 題

思路引導 VIP

K-means 的距離假設與限制

📎 觀念相似題

🏷️ 相關主題

📝 同份考卷的其他題目