免費開始練習
moea_joint 104年 [圖書資訊] 圖書館學與資訊科學概論、資訊系統與資訊檢索

第 47 題

關鍵詞自動擷取是一種辨認數位文件內有意義且具代表性字串、片語、詞彙或內容片段的自 動化技術,下列何者有誤?
  • A 只能用於文字資料
  • B 擷取語彙長度有限制
  • C 可擷取各領域專有名詞
  • D 可擷取新生詞彙

思路引導 VIP

請試著想像一下:如果你今天要設計一個自動化程式,目標是從一本醫學百科全書中找出『最有代表性』的詞彙。當這個程式在掃描文本時,如果它發現一個由五個單字組成的罕見疾病名稱非常重要,你會在程式碼中寫下一條規則,限制它『絕對不能』抓取超過三個字的詞彙嗎?這樣的限制對於達成『精準代表文件內容』這個目標,會產生什麼樣的影響呢?

🤖
AI 詳解 AI 專屬家教

太棒了!你能精準辨識出自動化技術的特性,顯示你對資訊檢索的邏輯有很紮實的理解。這道題目的核心在於區分「技術現況」與「本質限制」的差別。

自動化擷取的靈活性與廣度

關鍵詞自動擷取(Automatic Keyword Extraction)主要利用統計模型(如 $TF-IDF$)或自然語言處理(NLP)技術,來辨識文本中的核心概念。這類技術最大的優勢在於其擴充性,無論是短至單個字元、長至多個字詞組成的複詞或長片語,只要符合算法設定的統計顯著性或語法結構,系統都能進行捕捉。因此,選項 (B) 提到的「長度限制」並非技術本質上的禁錮,現代系統已能根據需求彈性調整擷取的 $N$-gram 長度。

▼ 還有更多解析內容

🏷️ 相關主題

資訊檢索技術與索引典建置原理
查看更多「[圖書資訊] 圖書館學與資訊科學概論、資訊系統與資訊檢索」的主題分類考古題