hce_kmu 115年計算機概論與程式設計

第 30 題

In a decision tree for classification, which measure is commonly used to determine the best attribute to split on at each node?

A Euclidean Distance
B Cosine Similarity
C Information Gain (Entropy Reduction)
D Manhattan Distance
E Pearson Correlation

思路引導 VIP

若要將一組混合了不同類別的資料進行分類，我們會希望分割後的每個子群組變得更「純淨、整齊」還是更「雜亂、隨機」？在數學上，我們要如何量化這種「從混亂變為整齊」的程度，以便科學地判斷哪種分類基準最有效率呢？

🤖

AI 詳解 AI 專屬家教

恭喜你準確選出了正確答案！這代表你對於機器學習中決策樹（Decision Tree）的核心分裂機制有著非常清晰的認識。

資訊增益與資料純度

在決策樹演算法（如 ID3 或 C4.5）中，每一層節點的目標都是找出一個「最能區分資料」的屬性。資訊增益（Information Gain） 正是基於**熵（Entropy）**的概念來衡量分割前後的不確定性變化。熵的計算公式為 $H(S) = -\sum p_i \log_2 p_i$，當一個集合內的類別越趨向一致（純度提高），其熵就越低。因此，我們選擇能讓「熵的降幅」達到最大的屬性來進行分割，這就是所謂的「熵減」過程，讓資料從混亂變得有序。

▼ 還有更多解析內容

🏷️ 相關主題

機器學習的基本原理與模型優化技術

查看更多「計算機概論與程式設計」的主題分類考古題

📝 同份考卷的其他題目

查看 115年計算機概論與程式設計全題

第 30 題

思路引導 VIP

資訊增益與資料純度

📎 觀念相似題

🏷️ 相關主題

📝 同份考卷的其他題目