moea_joint 104年 [圖書資訊] 圖書館學與資訊科學概論、資訊系統與資訊檢索

第 47 題

關鍵詞自動擷取是一種辨認數位文件內有意義且具代表性字串、片語、詞彙或內容片段的自動化技術,下列何者有誤?

A 只能用於文字資料
B 擷取語彙長度有限制
C 可擷取各領域專有名詞
D 可擷取新生詞彙

思路引導 VIP

請試著想像一下：如果你今天要設計一個自動化程式，目標是從一本醫學百科全書中找出『最有代表性』的詞彙。當這個程式在掃描文本時，如果它發現一個由五個單字組成的罕見疾病名稱非常重要，你會在程式碼中寫下一條規則，限制它『絕對不能』抓取超過三個字的詞彙嗎？這樣的限制對於達成『精準代表文件內容』這個目標，會產生什麼樣的影響呢？

🤖

AI 詳解 AI 專屬家教

太棒了！你能精準辨識出自動化技術的特性，顯示你對資訊檢索的邏輯有很紮實的理解。這道題目的核心在於區分「技術現況」與「本質限制」的差別。

自動化擷取的靈活性與廣度

關鍵詞自動擷取（Automatic Keyword Extraction）主要利用統計模型（如 $TF-IDF$）或自然語言處理（NLP）技術，來辨識文本中的核心概念。這類技術最大的優勢在於其擴充性，無論是短至單個字元、長至多個字詞組成的複詞或長片語，只要符合算法設定的統計顯著性或語法結構，系統都能進行捕捉。因此，選項 (B) 提到的「長度限制」並非技術本質上的禁錮，現代系統已能根據需求彈性調整擷取的 $N$-gram 長度。

▼ 還有更多解析內容

🏷️ 相關主題

資訊檢索技術與檢索策略之原理與應用

查看更多「[圖書資訊] 圖書館學與資訊科學概論、資訊系統與資訊檢索」的主題分類考古題

📝 同份考卷的其他題目

查看 104年[圖書資訊] 圖書館學與資訊科學概論、資訊系統與資訊檢索全題

第 47 題

思路引導 VIP

自動化擷取的靈活性與廣度

📎 觀念相似題

🏷️ 相關主題

📝 同份考卷的其他題目