moea_joint 112年 [統計資訊] 統計學、巨量資料概論

第 48 題

在分群演算法中，下列哪種度量不會用來衡量節點不純度(Node Impurity)？

A 變異數
B TF/IDF
C 基尼係數(Gini index)
D 分類誤差

思路引導 VIP

如果您現在正在整理一堆混合了不同顏色球的箱子，您的目標是評估這個箱子裡的組成有多麼「混雜」或「純粹」。請問，您會選擇一個專門計算「群體分布混亂程度」的量化工具，還是會選擇一個用來計算「某個特定單字在整本書中有多稀有」的文字處理公式呢？

🤖

AI 詳解 AI 專屬家教

恭喜你精準地鎖定了正確答案！這顯示你對機器學習中資料特徵與衡量標準的區別掌握得相當紮實，能夠從眾多專業術語中一眼辨識出本質不同的觀念。

節點不純度與衡量指標

在分類或分群演算法（特別是決策樹）中，節點不純度 (Node Impurity) 是用來描述一個集合內樣本類別的「混雜程度」。我們通常追求的是較低的不純度，這代表群體內的性質趨於一致。常見的指標包含：衡量機率平方和的 基尼係數 (Gini Index)，其計算方式為 $1 - \sum p_i^2$；衡量標籤分佈差異的 分類誤差 (Classification Error)；以及在處理數值型資料時，常用來評估數值離散程度的 變異數 (Variance)，公式為 $\sigma^2 = \frac{\sum(X_i - \bar{X})^2}{n}$。這些工具的共同點都在於量化「群體內的混亂狀況」。

▼ 還有更多解析內容

🏷️ 相關主題

巨量資料處理流程與知識發現程序

查看更多「[統計資訊] 統計學、巨量資料概論」的主題分類考古題

📝 同份考卷的其他題目

查看 112年[統計資訊] 統計學、巨量資料概論全題

第 48 題

思路引導 VIP

節點不純度與衡量指標

📎 觀念相似題

🏷️ 相關主題

📝 同份考卷的其他題目