moea_joint_essay 104年 [統計資訊] 資料庫及資料探勘、程式設計

第二題

假設現在有一些文件需要被分類成+和-兩類，為簡化起見，我們僅考慮 3 個詞，分別是"資料庫"、"資料探勘"和"電子商務"，我們共有 2100 份文件的訓練資料集，它們對於這 3個詞和類別的資訊如【表 1】所示，其中 T 表示有出現，F 表示無出現：

比如，第 1 列的資料顯示在有出現"資料庫"、"資料探勘"和"電子商務"3 個詞的文件裡，有 100 份的類別標籤是+，而另 100 份的類別標籤是-。
現在有 1 份新文件，它沒有出現"資料庫"，但有出現"資料探勘"和"電子商務"，請利用簡易貝式分類器(Naïve Bayesian Classifier)來預測新文件的類別，須列出詳細計算式（15 分），以及簡易貝式分類器有何假設（5 分）?

📝 此題為申論題

思路引導 VIP

首先計算+類別與−類別的先驗機率 P(+)、P(−)。
計算各特徵在給定類別下的條件機率 P(特徵|類別)。

🤖

AI 詳解 AI 專屬家教

基本機率計算：總文件數 = 2100 份

類別文件總數 = 100 + 10 + 30 + 490 + 100 + 500 + 70 + 100 = 1400 份

▼ 還有更多解析內容

🏷️ 相關主題

資料探勘中的分類與分群演算法應用

查看更多「[統計資訊] 資料庫及資料探勘、程式設計」的主題分類考古題

📝 同份考卷的其他題目

查看 104年[統計資訊] 資料庫及資料探勘、程式設計全題

第 二 題

思路引導 VIP

📎 觀念相似題

🏷️ 相關主題

📝 同份考卷的其他題目

第二題