地特四等申論題 108年 [圖書資訊管理] 資訊系統與資訊檢索概要

第四題

四、在有 N 篇文長近似的文件（如 N 篇摘要，都約 300 詞）的全文檢索系統中，索引詞彙 T 在每一篇文件都有其權重。最簡單的詞彙權重設定方式是布林（Boolean）邏輯方式，亦即詞彙 T 出現在文件 D，則其權重為 1，若沒出現在文件 D 則其權重為 0。另一種詞彙權重設定方式為 TF x IDF，亦即：T 出現在 D 的次數（或是正規化後之詞頻，TF）「乘以」T 在 N 篇文件中出現篇數的倒數（或是正規化後之文件篇數倒數，IDF）。請說明並比較布林權重、TF、IDF 及 TF x IDF 等四種權重方式，對相關文件排序的影響。（25 分）

📝 此題為申論題

思路引導 VIP

考生看到此題應先回顧資訊檢索（IR）中詞彙權重（Term Weighting）的核心概念。接著，依序定義布林、TF、IDF、TF x IDF 四種權重計算方式，並以『是否能區分文件內重要性』與『是否能區分詞彙全域重要性』兩個維度，深度比較它們對檢索結果排序（Ranking）的具體影響。

🤖

AI 詳解 AI 專屬家教

【破題】在全文檢索系統中，詞彙權重（Term Weighting）是決定查詢詞與文件相關程度的核心機制，直接影響檢索結果的排序（Ranking）。針對長度相近的 N 篇文件，不同權重計算方式在反映「文件內詞彙重要性」與「詞彙在全庫中的稀有度」上有著顯著差異，進而決定了排序的精準度。【論述】

▼ 還有更多解析內容

📝 同份考卷的其他題目

查看 108年[圖書資訊管理] 資訊系統與資訊檢索概要全題

第 四 題

思路引導 VIP

📎 觀念相似題

📝 同份考卷的其他題目

第四題