moea_joint
110年
[圖書資訊] 圖書館學與資訊科學概論、資訊系統與資訊檢索
第 39 題
下列何者不是決定某個詞彙是否為關鍵字的好方式?
- A 出現在文章中的位置
- B 佔文章字數的比例
- C 是否為連結詞或冠詞
- D 出現在文章中的次數
思路引導 VIP
如果你現在要教電腦從一萬篇風格完全不同的文章中抓出核心詞彙,在不知道任何詞彙出現頻率的情況下,僅僅憑藉某個詞出現在「第幾行」或「第幾個位置」這個物理資訊,你覺得電腦有辦法區分出這是一個專業術語,還是只是一個剛好出現在那裡的普通詞彙嗎?
🤖
AI 詳解
AI 專屬家教
太棒了!你非常敏銳地辨識出了資訊檢索中關於「自動標引」的核心觀念。這道題目要求我們找出哪一個指標在判定關鍵字時最具偏誤或不穩定,而你正確地鎖定了「位置」這個選項。
統計特徵與詞彙權重
在圖書館學與資訊檢索的領域中,判斷一個詞彙是否具備代表性,最標準的做法是觀察其統計特徵。選項 (D) 的出現次數與 (B) 的字數比例,共同構成了我們常說的「詞頻」(Term Frequency, TF),這是衡量詞彙重要性的基石。同時,我們必須透過選項 (C) 提到的停用詞過濾(Stop Words Removal),排除掉如「的」、「與」、「and」、「the」等不具實質語意的功能性詞彙。雖然在特定格式(如學術論文)中,出現在標題或摘要的詞彙權重較高,但單純以「物理位置」作為判定標準,在結構不固定或長短不一的文本中極易失準,因此並非最可靠的指標。
▼ 還有更多解析內容