免費開始練習
moea_joint_essay 105年 [統計資訊] 資料庫及資料探勘、程式設計

第 二 題

📖 題組:
決策樹(Decision Tree)是一個常用於解決分類(Classification)問題的方法,【表 1】所列之收入、年齡、信用為資料的屬性,而每一個屬性都有二種可能的值,分別為 l(low)與 h(high),而類別標籤則代表資料的類別,可以是 T (True) 或是 F (False)。請建立【表 1】的決策樹,並利用$1-\sum_{j=1}^n p_j^2$ (gini index, CART 演算法所使用)作為屬性選擇的根據,在公式中 n 代表資料類別的個數,$p_j$代表類別 j 在資料集中出現的頻率,請回答下列問題(需寫出運算過程)。 【表 1】 收入 | 年齡 | 信用 | 類別標籤 l | h | h | T l | l | l | F l | h | l | F h | h | h | T h | l | l | T h | h | l | T
📝 此題為申論題,共 2 小題

小題 (二)

請畫出此決策樹,並預測新進資料(收入= l、年齡= l、信用= h)的資料類別。(10 分)
題目圖片

思路引導 VIP

針對根節點分支出來的子資料集繼續計算 Gini Index,直到葉節點資料為同一類別為止。然後依據這棵樹來判定新資料的分類。

🤖
AI 詳解
AI 專屬家教
  1. 延續(一)的結果,根節點為「收入」。
  • 若「收入=h」,資料皆為類別 T,形成葉節點。
  • 若「收入=l」,有3筆資料 {(h,h,T), (l,l,F), (h,l,F)}(這裡括號內依序為年齡, 信用, 類別標籤),此子集合 Gini=4/9。需要繼續分裂。

小題 (一)

第一個被選出成為決策樹的根節點的屬性為何?(5 分)
題目圖片

思路引導 VIP

計算母資料集與各屬性(收入、年齡、信用)的 Gini index,選擇 Gini index 最小的屬性作為根節點。

🤖
AI 詳解
AI 專屬家教

總資料筆數共 6 筆,其中 T 有 4 筆、F 有 2 筆。 原始資料集的 Gini(D) = 1 - (4/6)² - (2/6)² = 1 - 16/36 - 4/36 = 16/36 = 4/9 ≈ 0.444 分別計算各屬性的 Gini index:

🏷️ 相關主題

資料探勘之分類與分群演算法應用
查看更多「[統計資訊] 資料庫及資料探勘、程式設計」的主題分類考古題