moea_joint_essay 106年 [統計資訊] 資料庫及資料探勘、程式設計

第一題

📖 題組：
k-均值聚類法(k-Means Clustering)是資料探勘常使用之分群(Clustering)方法，請回答下列問題。（10 分，每小題 5 分）

📝 此題為申論題，共 2 小題

小題 (一)

此方法除了須事先設定 k 值外，通常還有哪些缺點？

列出K-Means的常見缺點：對離群值敏感、初始值敏感、僅適用於凸形或球形資料等。

🤖

AI 詳解

AI 專屬家教

k-Means分群法的常見缺點包括：

在無法事先決定 k 值下，對數值資料進行分群，當反覆嘗試各種 k 值時，如何判斷該 k 值已經是最適當之數值？

說明決定最佳 k 值的評估方法，最常見的是轉折判斷法（Elbow Method）與輪廓係數（Silhouette Coefficient）。

🤖

AI 詳解

AI 專屬家教

判斷最適當 k 值常用的評估方法有以下兩種：

轉折點法/手肘法 (Elbow Method)：計算每個 k 值下所有資料點到其所屬群集質心的誤差平方和 (Sum of Squared Errors, SSE)。隨著 k 值增加，SSE 會逐漸下降；當 k 值到達真實群集數時，SSE 的下降幅度會急遽減緩，形成如手肘般的轉折點。該轉折點所對應的 k 值即為最適當數值。

查看更多「[統計資訊] 資料庫及資料探勘、程式設計」的主題分類考古題