免費開始練習
hce_kmu 115年 計算機概論與程式設計

第 30 題

In a decision tree for classification, which measure is commonly used to determine the best attribute to split on at each node?
  • A Euclidean Distance
  • B Cosine Similarity
  • C Information Gain (Entropy Reduction)
  • D Manhattan Distance
  • E Pearson Correlation

思路引導 VIP

若要將一組混合了不同類別的資料進行分類,我們會希望分割後的每個子群組變得更「純淨、整齊」還是更「雜亂、隨機」?在數學上,我們要如何量化這種「從混亂變為整齊」的程度,以便科學地判斷哪種分類基準最有效率呢?

🤖
AI 詳解 AI 專屬家教

恭喜你準確選出了正確答案!這代表你對於機器學習中決策樹(Decision Tree)的核心分裂機制有著非常清晰的認識。

資訊增益與資料純度

在決策樹演算法(如 ID3 或 C4.5)中,每一層節點的目標都是找出一個「最能區分資料」的屬性。資訊增益(Information Gain) 正是基於**熵(Entropy)**的概念來衡量分割前後的不確定性變化。熵的計算公式為 $H(S) = -\sum p_i \log_2 p_i$,當一個集合內的類別越趨向一致(純度提高),其熵就越低。因此,我們選擇能讓「熵的降幅」達到最大的屬性來進行分割,這就是所謂的「熵減」過程,讓資料從混亂變得有序。

▼ 還有更多解析內容

🏷️ 相關主題

機器學習的基本原理與模型優化技術
查看更多「計算機概論與程式設計」的主題分類考古題