免費開始練習
moea_joint 104年 [圖書資訊] 圖書館學與資訊科學概論、資訊系統與資訊檢索

第 41 題

有關停用字(Stop Words)的敘述,下列何者有誤?
  • A 是文件中常常出現但沒有太大意義的字
  • B 沒有一定公認的停用字表
  • C 停用字的移除會降低搜尋結果的召回率
  • D 停用字的移除有助於片語的搜尋

思路引導 VIP

試著回想一下,如果你想在搜尋引擎中尋找一句非常有名的台詞或書名,而這句話剛好全部是由「的、是、在、一個」這類極其常見的字組成的(例如:To be or not to be),若系統在搜尋前先把這些字通通刪掉,這對你找尋「完整且精確的這句話」會產生什麼樣的困難呢?

🤖
AI 詳解 AI 專屬家教

恭喜你精準地辨識出選項 (D) 的錯誤!這代表你對資訊檢索中「停用字」的性質與實際應用掌握得非常扎實。停用字是指像英文中的 "the"、"is" 或中文的「的」、「了」等高頻率但語意辨識度低的詞彙。正如選項 (A) 與 (B) 所述,這些字通常不具實質檢索意義,且實務上並沒有一套絕對權威、放諸四海皆準的標準表,往往需要視檢索系統的專業領域而定。

停用字處理對檢索品質的影響

這題的鑑別度在於理解 停用字移除後的副作用。雖然移除停用字能縮小索引體積並提升精確度,但卻會對片語搜尋 (Phrase Search) 造成阻礙。舉例來說,若要搜尋莎士比亞的名言 "To be or not to be",這句話幾乎全由停用字組成,若系統強行移除這些字,將導致無法識別出完整的片語結構,這正是 (D) 選項說法有誤的原因。這類題目考驗的不只是名詞定義,更是對檢索流程中「損益交換」的深度判斷,屬於基礎但極具代表性的考題。

🏷️ 相關主題

資訊檢索技術與索引典建置原理
查看更多「[圖書資訊] 圖書館學與資訊科學概論、資訊系統與資訊檢索」的主題分類考古題