免費開始練習
地特四等申論題 108年 [圖書資訊管理] 資訊系統與資訊檢索概要

第 四 題

四、在有 N 篇文長近似的文件(如 N 篇摘要,都約 300 詞)的全文檢索系統中,索引詞彙 T 在每一篇文件都有其權重。最簡單的詞彙權重設定方式是布林(Boolean)邏輯方式,亦即詞彙 T 出現在文件 D,則其權重為 1,若沒出現在文件 D 則其權重為 0。另一種詞彙權重設定方式為 TF x IDF,亦即:T 出現在 D 的次數(或是正規化後之詞頻,TF)「乘以」T 在 N 篇文件中出現篇數的倒數(或是正規化後之文件篇數倒數,IDF)。請說明並比較布林權重、TF、IDF 及 TF x IDF 等四種權重方式,對相關文件排序的影響。(25 分)
📝 此題為申論題

思路引導 VIP

考生看到此題應先回顧資訊檢索(IR)中詞彙權重(Term Weighting)的核心概念。接著,依序定義布林、TF、IDF、TF x IDF 四種權重計算方式,並以『是否能區分文件內重要性』與『是否能區分詞彙全域重要性』兩個維度,深度比較它們對檢索結果排序(Ranking)的具體影響。

🤖
AI 詳解 AI 專屬家教

【破題】 在全文檢索系統中,詞彙權重(Term Weighting)是決定查詢詞與文件相關程度的核心機制,直接影響檢索結果的排序(Ranking)。針對長度相近的 N 篇文件,不同權重計算方式在反映「文件內詞彙重要性」與「詞彙在全庫中的稀有度」上有著顯著差異,進而決定了排序的精準度。 【論述】

▼ 還有更多解析內容

升級 VIP 解鎖