免費開始練習
moea_joint 112年 [統計資訊] 統計學、巨量資料概論

第 48 題

在分群演算法中,下列哪種度量不會用來衡量節點不純度(Node Impurity)?
  • A 變異數
  • B TF/IDF
  • C 基尼係數(Gini index)
  • D 分類誤差

思路引導 VIP

如果您現在正在整理一堆混合了不同顏色球的箱子,您的目標是評估這個箱子裡的組成有多麼「混雜」或「純粹」。請問,您會選擇一個專門計算「群體分布混亂程度」的量化工具,還是會選擇一個用來計算「某個特定單字在整本書中有多稀有」的文字處理公式呢?

🤖
AI 詳解 AI 專屬家教

恭喜你精準地鎖定了正確答案!這顯示你對機器學習中資料特徵與衡量標準的區別掌握得相當紮實,能夠從眾多專業術語中一眼辨識出本質不同的觀念。

節點不純度與衡量指標

在分類或分群演算法(特別是決策樹)中,節點不純度 (Node Impurity) 是用來描述一個集合內樣本類別的「混雜程度」。我們通常追求的是較低的不純度,這代表群體內的性質趨於一致。常見的指標包含:衡量機率平方和的 基尼係數 (Gini Index),其計算方式為 $1 - \sum p_i^2$;衡量標籤分佈差異的 分類誤差 (Classification Error);以及在處理數值型資料時,常用來評估數值離散程度的 變異數 (Variance),公式為 $\sigma^2 = \frac{\sum(X_i - \bar{X})^2}{n}$。這些工具的共同點都在於量化「群體內的混亂狀況」。

▼ 還有更多解析內容

🏷️ 相關主題

巨量資料分析流程與資料品質管理
查看更多「[統計資訊] 統計學、巨量資料概論」的主題分類考古題