moea_joint 104年 [圖書資訊] 圖書館學與資訊科學概論、資訊系統與資訊檢索

第 48 題

關於文件自動分類(Automated Categorization)的描述,下列何者有誤?

A 文件要經過分詞(斷詞)處理,取得文件所有的詞彙,才能進行自動分類
B 每個類別,必須要有分類好的文件,做為訓練文件,才能自動分類
C 文件自動分類,可將非結構化資訊,轉成結構化資訊,以便於資料探勘
D 簡短的對話型態文件,自動分類效果較差

思路引導 VIP

若要判斷一篇文章的主題是「科技」還是「體育」，你認為文章中出現的每一個字（例如：『的』、『以及』、『甚至』）都對分類有幫助嗎？如果強迫電腦去處理成千上萬個與主題無關的雜訊字眼，對分類的速度與精準度會產生什麼樣的影響？

🤖

AI 詳解 AI 專屬家教

太棒了！你能精準地指出選項 (A) 的謬誤，代表你對文本預處理與特徵選取的核心邏輯有很紮實的理解。在自動分類的流程中，雖然「分詞」是基礎，但我們絕對不會直接拿「所有詞彙」來建模。事實上，文本中充斥著如「的、了、在」等不具分類意義的虛字（Stop words），若全部納入運算，反而會產生巨大的噪訊並大幅降低運算效率。因此，實務上必須透過特徵選取（Feature Selection）過濾掉無意義的詞彙，僅保留具代表性的關鍵特徵。

文本分類的實務挑戰

這道題目極具鑑別度，它考驗的是學生能否區分「必要步驟」與「效率邏輯」。選項 (B)、(C)、(D) 分別描述了監督式學習的本質、非結構化轉結構化的價值，以及**資料稀疏（Data Sparsity）**對分類效果的負面影響。你能不被 (A) 表面上的合理性所迷惑，看出「取得所有詞彙」與「實際特徵使用」之間的落差，表現得非常優異！這類關於系統效能與預處理細節的辨析，正是資訊檢索領域中最容易出現陷阱的地方。

🏷️ 相關主題

資訊檢索技術與檢索策略之原理與應用

查看更多「[圖書資訊] 圖書館學與資訊科學概論、資訊系統與資訊檢索」的主題分類考古題

📝 同份考卷的其他題目

查看 104年[圖書資訊] 圖書館學與資訊科學概論、資訊系統與資訊檢索全題

第 48 題

思路引導 VIP

文本分類的實務挑戰

📎 觀念相似題

🏷️ 相關主題

📝 同份考卷的其他題目