免費開始練習
moea_joint_essay 104年 [統計資訊] 資料庫及資料探勘、程式設計

第 二 題

假設現在有一些文件需要被分類成+和−兩類,為簡化起見,我們僅考慮 3 個詞,分別是"資料庫"、"資料探勘"和"電子商務",我們共有 2100 份文件的訓練資料集,它們對於這 3個詞和類別的資訊如【表 1】所示,其中 T 表示有出現,F 表示無出現:

比如,第 1 列的資料顯示在有出現"資料庫"、"資料探勘"和"電子商務"3 個詞的文件裡,有 100 份的類別標籤是+,而另 100 份的類別標籤是−。
現在有 1 份新文件,它沒有出現"資料庫",但有出現"資料探勘"和"電子商務",請利用簡易貝式分類器(Naïve Bayesian Classifier)來預測新文件的類別,須列出詳細計算式(15 分),以及簡易貝式分類器有何假設(5 分)?
題目圖片
📝 此題為申論題

思路引導 VIP

  1. 首先計算+類別與−類別的先驗機率 P(+)、P(−)。
  2. 計算各特徵在給定類別下的條件機率 P(特徵|類別)。
🤖
AI 詳解 AI 專屬家教
  1. 基本機率計算: 總文件數 = 2100 份
  • 類別文件總數 = 100 + 10 + 30 + 490 + 100 + 500 + 70 + 100 = 1400 份
▼ 還有更多解析內容

🏷️ 相關主題

資料探勘之分類與分群演算法應用
查看更多「[統計資訊] 資料庫及資料探勘、程式設計」的主題分類考古題