moea_joint_essay
105年
[統計資訊] 資料庫及資料探勘、程式設計
第 一 題
📖 題組:
決策樹(Decision Tree)是一個常用於解決分類(Classification)問題的方法,【表 1】所列之收入、年齡、信用為資料的屬性,而每一個屬性都有二種可能的值,分別為 l(low)與 h(high),而類別標籤則代表資料的類別,可以是 T (True) 或是 F (False)。請建立【表 1】的決策樹,並利用$1-\sum_{j=1}^n p_j^2$ (gini index, CART 演算法所使用)作為屬性選擇的根據,在公式中 n 代表資料類別的個數,$p_j$代表類別 j 在資料集中出現的頻率,請回答下列問題(需寫出運算過程)。 【表 1】 收入 | 年齡 | 信用 | 類別標籤 l | h | h | T l | l | l | F l | h | l | F h | h | h | T h | l | l | T h | h | l | T
決策樹(Decision Tree)是一個常用於解決分類(Classification)問題的方法,【表 1】所列之收入、年齡、信用為資料的屬性,而每一個屬性都有二種可能的值,分別為 l(low)與 h(high),而類別標籤則代表資料的類別,可以是 T (True) 或是 F (False)。請建立【表 1】的決策樹,並利用$1-\sum_{j=1}^n p_j^2$ (gini index, CART 演算法所使用)作為屬性選擇的根據,在公式中 n 代表資料類別的個數,$p_j$代表類別 j 在資料集中出現的頻率,請回答下列問題(需寫出運算過程)。 【表 1】 收入 | 年齡 | 信用 | 類別標籤 l | h | h | T l | l | l | F l | h | l | F h | h | h | T h | l | l | T h | h | l | T
📝 此題為申論題,共 2 小題
小題 (一)
第一個被選出成為決策樹的根節點的屬性為何?(5 分)
思路引導 VIP
計算母資料集與各屬性(收入、年齡、信用)的 Gini index,選擇 Gini index 最小的屬性作為根節點。
小題 (二)
請畫出此決策樹,並預測新進資料(收入= l、年齡= l、信用= h)的資料類別。(10 分)
思路引導 VIP
針對根節點分支出來的子資料集繼續計算 Gini Index,直到葉節點資料為同一類別為止。然後依據這棵樹來判定新資料的分類。