moea_joint_essay
113年
[統計資訊] 資料庫及資料探勘、程式設計
第 二 題
📖 題組:
當一個資料集中有兩個類別的資料,且其中一個類別的資料筆數遠大於另一個類別的資料筆數時,則稱其為不平衡(imbalanced)資料集,在這類資料集中,一般較受到關注的是少數類別的資料。請回答下列問題:(2 題,每題 13 分,共 26 分)
當一個資料集中有兩個類別的資料,且其中一個類別的資料筆數遠大於另一個類別的資料筆數時,則稱其為不平衡(imbalanced)資料集,在這類資料集中,一般較受到關注的是少數類別的資料。請回答下列問題:(2 題,每題 13 分,共 26 分)
📝 此題為申論題,共 2 小題
小題 (二)
請論述正確率(accuracy)、F測度(F measure)和召回率(recall),何者較適合用來評估分類方法在不平衡資料上的效能?
思路引導 VIP
指出 Accuracy 的缺陷 (容易被多數類主導而失真),強調 Recall (捕捉少數類的漏報率) 與 F-measure (綜合考量 Precision 和 Recall) 的適合度。
小題 (一)
請論述分類方法決策樹(Decision Tree)、支持向量機(Support Vector Machine)和基於規則演算法(Rule-based Algorithm),何者較適合用來做不平衡資料的分類?
思路引導 VIP
說明各演算法對抗不平衡資料的特性。其中 SVM 透過調整類別權重 (Cost-sensitive) 可以有效處理;而基於規則演算法可以直接尋找少數類別的涵蓋規則。一般不建議傳統決策樹,因其容易受多數類支配。