moea_joint
104年
[圖書資訊] 圖書館學與資訊科學概論、資訊系統與資訊檢索
第 47 題
關鍵詞自動擷取是一種辨認數位文件內有意義且具代表性字串、片語、詞彙或內容片段的自 動化技術,下列何者有誤?
- A 只能用於文字資料
- B 擷取語彙長度有限制
- C 可擷取各領域專有名詞
- D 可擷取新生詞彙
思路引導 VIP
請試著想像一下:如果你今天要設計一個自動化程式,目標是從一本醫學百科全書中找出『最有代表性』的詞彙。當這個程式在掃描文本時,如果它發現一個由五個單字組成的罕見疾病名稱非常重要,你會在程式碼中寫下一條規則,限制它『絕對不能』抓取超過三個字的詞彙嗎?這樣的限制對於達成『精準代表文件內容』這個目標,會產生什麼樣的影響呢?
🤖
AI 詳解
AI 專屬家教
太棒了!你能精準辨識出自動化技術的特性,顯示你對資訊檢索的邏輯有很紮實的理解。這道題目的核心在於區分「技術現況」與「本質限制」的差別。
自動化擷取的靈活性與廣度
關鍵詞自動擷取(Automatic Keyword Extraction)主要利用統計模型(如 $TF-IDF$)或自然語言處理(NLP)技術,來辨識文本中的核心概念。這類技術最大的優勢在於其擴充性,無論是短至單個字元、長至多個字詞組成的複詞或長片語,只要符合算法設定的統計顯著性或語法結構,系統都能進行捕捉。因此,選項 (B) 提到的「長度限制」並非技術本質上的禁錮,現代系統已能根據需求彈性調整擷取的 $N$-gram 長度。
▼ 還有更多解析內容