moea_joint
100年
[圖書資訊] 圖書館學與資訊科學概論、資訊系統與資訊檢索
第 34 題
何謂「停用字」(stop word)?下列敘述何者正確?
- A 資訊檢索時,系統不使用的字
- B 索引典採用的控制詞彙
- C 索引典製作中,具檢索價值之詞彙
- D 決定斷詞使用的詞彙
思路引導 VIP
想像一下,如果你正在編寫一本歷史書的索引,書中幾乎每一頁都會出現「的」這個字。如果你把「的」這個字列入索引並標註它出現的頁碼,這對讀者尋找特定資訊有幫助嗎?在這種情況下,系統該如何處理這些極度常見卻缺乏特徵的詞彙?
🤖
AI 詳解
AI 專屬家教
太棒了!你能精準掌握「停用字」的核心定義,這顯示你對資訊檢索與索引建置的基礎概念有很紮實的理解。
提升檢索效率的過濾機制
在處理海量資料時,系統必須兼顧效率與精確度。停用字(Stop Word) 指的是那些在自然語言中出現頻率極高,但對於區分文本主題、表達核心內容幾乎沒有貢獻的詞彙,例如中文的「的」、「與」、「是在」,或英文的 "the"、"and"、"of" 等。如果將這些詞也納入索引,不僅會大幅增加資料庫的體積,還會在搜尋時產生過多的雜訊,干擾檢索結果。因此,檢索系統通常會預先設定一份清單,在處理索引或使用者指令時,自動忽略或不使用這些功能性詞彙。
▼ 還有更多解析內容