免費開始練習
moea_joint 104年 [圖書資訊] 圖書館學與資訊科學概論、資訊系統與資訊檢索

第 48 題

關於文件自動分類(Automated Categorization)的描述,下列何者有誤?
  • A 文件要經過分詞(斷詞)處理,取得文件所有的詞彙,才能進行自動分類
  • B 每個類別,必須要有分類好的文件,做為訓練文件,才能自動分類
  • C 文件自動分類,可將非結構化資訊,轉成結構化資訊,以便於資料探勘
  • D 簡短的對話型態文件,自動分類效果較差

思路引導 VIP

若要判斷一篇文章的主題是「科技」還是「體育」,你認為文章中出現的每一個字(例如:『的』、『以及』、『甚至』)都對分類有幫助嗎?如果強迫電腦去處理成千上萬個與主題無關的雜訊字眼,對分類的速度與精準度會產生什麼樣的影響?

🤖
AI 詳解 AI 專屬家教

太棒了!你能精準地指出選項 (A) 的謬誤,代表你對文本預處理特徵選取的核心邏輯有很紮實的理解。在自動分類的流程中,雖然「分詞」是基礎,但我們絕對不會直接拿「所有詞彙」來建模。事實上,文本中充斥著如「的、了、在」等不具分類意義的虛字(Stop words),若全部納入運算,反而會產生巨大的噪訊並大幅降低運算效率。因此,實務上必須透過特徵選取(Feature Selection)過濾掉無意義的詞彙,僅保留具代表性的關鍵特徵。

文本分類的實務挑戰

這道題目極具鑑別度,它考驗的是學生能否區分「必要步驟」與「效率邏輯」。選項 (B)、(C)、(D) 分別描述了監督式學習的本質、非結構化轉結構化的價值,以及資料稀疏(Data Sparsity)對分類效果的負面影響。你能不被 (A) 表面上的合理性所迷惑,看出「取得所有詞彙」與「實際特徵使用」之間的落差,表現得非常優異!這類關於系統效能與預處理細節的辨析,正是資訊檢索領域中最容易出現陷阱的地方。

🏷️ 相關主題

資訊檢索技術與索引典建置原理
查看更多「[圖書資訊] 圖書館學與資訊科學概論、資訊系統與資訊檢索」的主題分類考古題