moea_joint_essay 113年 [統計資訊] 資料庫及資料探勘、程式設計

第二題

📖 題組：
當一個資料集中有兩個類別的資料，且其中一個類別的資料筆數遠大於另一個類別的資料筆數時，則稱其為不平衡(imbalanced)資料集，在這類資料集中，一般較受到關注的是少數類別的資料。請回答下列問題：（2 題，每題 13 分，共 26 分）

📝 此題為申論題，共 2 小題

小題 (二)

請論述正確率(accuracy)、F測度(F measure)和召回率(recall)，何者較適合用來評估分類方法在不平衡資料上的效能？

指出 Accuracy 的缺陷 (容易被多數類主導而失真)，強調 Recall (捕捉少數類的漏報率) 與 F-measure (綜合考量 Precision 和 Recall) 的適合度。

🤖

AI 詳解

AI 專屬家教

F測度 (F measure) 和 召回率 (recall) 較為適合，而正確率(Accuracy)極度不適合。

不適合的原因 - 正確率 (Accuracy)：在極度不平衡的資料中（例如 99% 多數類，1% 少數類），模型只要採取「全部預測為多數類」的偷懶策略，就能輕鬆獲得 99% 的超高正確率，但卻一筆少數類都沒抓到。因此，正確率無法真實反映模型對少數類的辨識能力。
適合的原因 - 召回率 (Recall)：召回率衡量的是「在所有真實的少數類樣本中，模型成功抓出了多少比例」。在不平衡資料情境（如疾病檢測、詐騙防範）中，漏抓少數類的代價極高，因此召回率是一個能直接反映出我們最關注效能的評估指標。

請論述分類方法決策樹(Decision Tree)、支持向量機(Support Vector Machine)和基於規則演算法(Rule-based Algorithm)，何者較適合用來做不平衡資料的分類？

說明各演算法對抗不平衡資料的特性。其中 SVM 透過調整類別權重 (Cost-sensitive) 可以有效處理；而基於規則演算法可以直接尋找少數類別的涵蓋規則。一般不建議傳統決策樹，因其容易受多數類支配。

🤖

AI 詳解

AI 專屬家教

這三種方法中，支持向量機 (Support Vector Machine, SVM) 以及 基於規則演算法 (Rule-based Algorithm) 相對較適合處理不平衡資料的分類，各有其獨特優勢：

支持向量機 (SVM)：SVM 的分類邊界是由少數處於邊界區間的「支持向量」決定的，對於遠離邊界的龐大多數類樣本並不敏感。此外，SVM 可以很自然地搭配「代價敏感學習 (Cost-sensitive Learning)」，對少數類別給予較大的誤判懲罰權重。如此一來，SVM 的超平面將會傾向保護少數類別，降低少數類的漏判率，非常適合處理不平衡資料。
基於規則演算法 (Rule-based Algorithm)：此類演算法 (例如 RIPPER) 能直接且獨立地為少數類別探勘具有高覆蓋率與高精確率的「If-Then」規則。它可以將少數類當作重點搜尋目標 (Rare Rule Mining)，而不受多數類別的整體準確率所干擾，且具有極佳的模型可解釋性。

查看更多「[統計資訊] 資料庫及資料探勘、程式設計」的主題分類考古題