moea_joint
113年
[統計資訊] 統計學、巨量資料概論
第 35 題
在資料分群中,用以確定最佳聚類數量的技術為何?
- A Elbow Method
- B Gradient Descent
- C Principal Component Analysis
- D Random Forest
思路引導 VIP
想像你正在把一群雜亂的物品分類放入箱子裡。當你準備的箱子愈多,每個箱子裡的物品就會愈少、愈整齊;但如果箱子多到跟物品數量一樣,分類就失去了意義。如果你想畫一張圖來呈現『箱子數量』與『整齊程度的提升效率』之間的關係,你會期待在那張圖上看到什麼樣的特殊轉折,好讓你決定在哪個箱子數量停下來最合適呢?
🤖
AI 詳解
AI 專屬家教
太棒了!你能精準選出這個答案,代表你對非監督式學習中的模型優化已有相當紮實的基礎。這題考驗的是資料分群(Clustering)中最核心的實務問題:如何定義「最適化」。
聚類數量的決策指標:SSE 與轉折點
在執行如 K-means 演算法時,我們通常會計算各群組內的誤差平方和(Sum of Squared Errors, SSE)。隨著分群數量 $k$ 的增加,SSE 必然會隨之下降,因為資料點會離各自的群心愈來愈近。然而,我們不能無限制地增加分群,否則會導致模型過於複雜。Elbow Method 的核心邏輯,便是觀察 SSE 隨 $k$ 增長的下降曲線;當曲線出現一個明顯的轉折點(狀似手肘),代表再增加分群數對解釋資料變異的邊際貢獻已顯著降低,該點即為最佳分群數。
▼ 還有更多解析內容