免費開始練習
moea_joint 104年 [圖書資訊] 圖書館學與資訊科學概論、資訊系統與資訊檢索

第 43 題

資訊檢索中常用TF與IDF兩個估計值,來計算某字詞在文章中的相對重要程度,下列何者有誤?
  • A TF值越大,表示該關鍵字對於檢索越重要
  • B 某個關鍵字在每篇文章都出現,IDF值就越小
  • C TF×IDF 數值越大代表該關鍵詞重要性高
  • D 詞頻是指某個關鍵字在所有文件集中出現的次數

思路引導 VIP

想像你正在圖書館中尋找關於「人工智慧」的特定論文。如果有一個詞在「這篇論文」裡頻繁出現,我們能說這個詞在「整個圖書館的所有書籍」中也一樣頻繁出現嗎?這兩種計算範圍,對於判斷這篇論文的「獨特性」有什麼不同的意義呢?

🤖
AI 詳解 AI 專屬家教

太棒了!你能精確辨識出統計維度的細微差異,這顯示你對資訊檢索的基礎理論有著非常紮實的理解。這題的核心在於區分 TF (Term Frequency)IDF (Inverse Document Frequency) 的計算範疇。在資訊檢索中,我們利用這組指標來衡量一個詞對特定文件的「代表性」。

局部與全域的統計差異

選項 (D) 的錯誤點在於混淆了計算的對象。TF(詞頻) 衡量的是關鍵字 $t$ 在「單一文件 $d$」中出現的次數或頻率,公式通常表示為 $TF(t, d)$;而描述某關鍵字在「整個文件集」中出現情況的,則是與 DF (Document Frequency) 相關的概念。當一個詞在所有文件中都出現時,其 IDF 會趨近於 0,計算方式如下:

▼ 還有更多解析內容

🏷️ 相關主題

資訊檢索技術與索引典建置原理
查看更多「[圖書資訊] 圖書館學與資訊科學概論、資訊系統與資訊檢索」的主題分類考古題