moea_joint
112年
[統計資訊] 統計學、巨量資料概論
第 48 題
在分群演算法中,下列哪種度量不會用來衡量節點不純度(Node Impurity)?
- A 變異數
- B TF/IDF
- C 基尼係數(Gini index)
- D 分類誤差
思路引導 VIP
如果您現在正在整理一堆混合了不同顏色球的箱子,您的目標是評估這個箱子裡的組成有多麼「混雜」或「純粹」。請問,您會選擇一個專門計算「群體分布混亂程度」的量化工具,還是會選擇一個用來計算「某個特定單字在整本書中有多稀有」的文字處理公式呢?
🤖
AI 詳解
AI 專屬家教
恭喜你精準地鎖定了正確答案!這顯示你對機器學習中資料特徵與衡量標準的區別掌握得相當紮實,能夠從眾多專業術語中一眼辨識出本質不同的觀念。
節點不純度與衡量指標
在分類或分群演算法(特別是決策樹)中,節點不純度 (Node Impurity) 是用來描述一個集合內樣本類別的「混雜程度」。我們通常追求的是較低的不純度,這代表群體內的性質趨於一致。常見的指標包含:衡量機率平方和的 基尼係數 (Gini Index),其計算方式為 $1 - \sum p_i^2$;衡量標籤分佈差異的 分類誤差 (Classification Error);以及在處理數值型資料時,常用來評估數值離散程度的 變異數 (Variance),公式為 $\sigma^2 = \frac{\sum(X_i - \bar{X})^2}{n}$。這些工具的共同點都在於量化「群體內的混亂狀況」。
▼ 還有更多解析內容