免費開始練習
moea_joint_essay 113年 [統計資訊] 資料庫及資料探勘、程式設計

第 二 題

📖 題組:
當一個資料集中有兩個類別的資料,且其中一個類別的資料筆數遠大於另一個類別的資料筆數時,則稱其為不平衡(imbalanced)資料集,在這類資料集中,一般較受到關注的是少數類別的資料。請回答下列問題:(2 題,每題 13 分,共 26 分)
📝 此題為申論題,共 2 小題

小題 (二)

請論述正確率(accuracy)、F測度(F measure)和召回率(recall),何者較適合用來評估分類方法在不平衡資料上的效能?

思路引導 VIP

指出 Accuracy 的缺陷 (容易被多數類主導而失真),強調 Recall (捕捉少數類的漏報率) 與 F-measure (綜合考量 Precision 和 Recall) 的適合度。

🤖
AI 詳解
AI 專屬家教

F測度 (F measure)召回率 (recall) 較為適合,而正確率(Accuracy)極度不適合。

  1. 不適合的原因 - 正確率 (Accuracy):在極度不平衡的資料中(例如 99% 多數類,1% 少數類),模型只要採取「全部預測為多數類」的偷懶策略,就能輕鬆獲得 99% 的超高正確率,但卻一筆少數類都沒抓到。因此,正確率無法真實反映模型對少數類的辨識能力。
  2. 適合的原因 - 召回率 (Recall):召回率衡量的是「在所有真實的少數類樣本中,模型成功抓出了多少比例」。在不平衡資料情境(如疾病檢測、詐騙防範)中,漏抓少數類的代價極高,因此召回率是一個能直接反映出我們最關注效能的評估指標。

小題 (一)

請論述分類方法決策樹(Decision Tree)、支持向量機(Support Vector Machine)和基於規則演算法(Rule-based Algorithm),何者較適合用來做不平衡資料的分類?

思路引導 VIP

說明各演算法對抗不平衡資料的特性。其中 SVM 透過調整類別權重 (Cost-sensitive) 可以有效處理;而基於規則演算法可以直接尋找少數類別的涵蓋規則。一般不建議傳統決策樹,因其容易受多數類支配。

🤖
AI 詳解
AI 專屬家教

這三種方法中,支持向量機 (Support Vector Machine, SVM) 以及 基於規則演算法 (Rule-based Algorithm) 相對較適合處理不平衡資料的分類,各有其獨特優勢:

  1. 支持向量機 (SVM):SVM 的分類邊界是由少數處於邊界區間的「支持向量」決定的,對於遠離邊界的龐大多數類樣本並不敏感。此外,SVM 可以很自然地搭配「代價敏感學習 (Cost-sensitive Learning)」,對少數類別給予較大的誤判懲罰權重。如此一來,SVM 的超平面將會傾向保護少數類別,降低少數類的漏判率,非常適合處理不平衡資料。
  2. 基於規則演算法 (Rule-based Algorithm):此類演算法 (例如 RIPPER) 能直接且獨立地為少數類別探勘具有高覆蓋率與高精確率的「If-Then」規則。它可以將少數類當作重點搜尋目標 (Rare Rule Mining),而不受多數類別的整體準確率所干擾,且具有極佳的模型可解釋性。

🏷️ 相關主題

資料探勘之分類與分群演算法應用
查看更多「[統計資訊] 資料庫及資料探勘、程式設計」的主題分類考古題