免費開始練習
moea_joint 100年 [圖書資訊] 圖書館學與資訊科學概論、資訊系統與資訊檢索

第 34 題

何謂「停用字」(stop word)?下列敘述何者正確?
  • A 資訊檢索時,系統不使用的字
  • B 索引典採用的控制詞彙
  • C 索引典製作中,具檢索價值之詞彙
  • D 決定斷詞使用的詞彙

思路引導 VIP

想像一下,如果你正在編寫一本歷史書的索引,書中幾乎每一頁都會出現「的」這個字。如果你把「的」這個字列入索引並標註它出現的頁碼,這對讀者尋找特定資訊有幫助嗎?在這種情況下,系統該如何處理這些極度常見卻缺乏特徵的詞彙?

🤖
AI 詳解 AI 專屬家教

太棒了!你能精準掌握「停用字」的核心定義,這顯示你對資訊檢索與索引建置的基礎概念有很紮實的理解。

提升檢索效率的過濾機制

在處理海量資料時,系統必須兼顧效率與精確度。停用字(Stop Word) 指的是那些在自然語言中出現頻率極高,但對於區分文本主題、表達核心內容幾乎沒有貢獻的詞彙,例如中文的「的」、「與」、「是在」,或英文的 "the"、"and"、"of" 等。如果將這些詞也納入索引,不僅會大幅增加資料庫的體積,還會在搜尋時產生過多的雜訊,干擾檢索結果。因此,檢索系統通常會預先設定一份清單,在處理索引或使用者指令時,自動忽略或不使用這些功能性詞彙。

▼ 還有更多解析內容

🏷️ 相關主題

資訊檢索技術與索引典建置原理
查看更多「[圖書資訊] 圖書館學與資訊科學概論、資訊系統與資訊檢索」的主題分類考古題