免費開始練習
moea_joint_essay 106年 [統計資訊] 資料庫及資料探勘、程式設計

第 一 題

📖 題組:
k-均值聚類法(k-Means Clustering)是資料探勘常使用之分群(Clustering)方法,請回答下列問題。(10 分,每小題 5 分)
📝 此題為申論題,共 2 小題

小題 (一)

此方法除了須事先設定 k 值外,通常還有哪些缺點?

思路引導 VIP

列出K-Means的常見缺點:對離群值敏感、初始值敏感、僅適用於凸形或球形資料等。

🤖
AI 詳解
AI 專屬家教

k-Means分群法的常見缺點包括:

  1. 對離群值(Outliers)和雜訊非常敏感:由於演算法會計算各群中心的平均值,極端的資料點容易大幅拉偏質心位置。
  2. 對初始質心的選擇敏感:初始選定的 k 個中心點若不佳,容易陷入局部最佳解(Local Optimum),導致分群結果不穩定。

小題 (二)

在無法事先決定 k 值下,對數值資料進行分群,當反覆嘗試各種 k 值時,如何判斷該 k 值已經是最適當之數值?

思路引導 VIP

說明決定最佳 k 值的評估方法,最常見的是轉折判斷法(Elbow Method)與輪廓係數(Silhouette Coefficient)。

🤖
AI 詳解
AI 專屬家教

判斷最適當 k 值常用的評估方法有以下兩種:

  1. 轉折點法/手肘法 (Elbow Method): 計算每個 k 值下所有資料點到其所屬群集質心的誤差平方和 (Sum of Squared Errors, SSE)。隨著 k 值增加,SSE 會逐漸下降;當 k 值到達真實群集數時,SSE 的下降幅度會急遽減緩,形成如手肘般的轉折點。該轉折點所對應的 k 值即為最適當數值。

🏷️ 相關主題

資料探勘之分類與分群演算法應用
查看更多「[統計資訊] 資料庫及資料探勘、程式設計」的主題分類考古題