免費開始練習
高考申論題 106年 [圖書資訊管理(選試英文)] 資訊系統與資訊檢索

第 二 題

二、一般而言,停用詞可分為二類:通用停用詞(Generic Stop Words),專用停用詞(Specific Stop Words,或稱領域停用詞,Domain Stop Words)。請分別說明這二類的停用詞,並說明如何建構這二種停用詞表(Stop-word List)。(25 分)
📝 此題為申論題

思路引導 VIP

作答此題應先點出停用詞的核心概念(出現頻率高但鑑別力低)。接著,依據「適用範圍」區分通用與領域停用詞的定義與範例。最後,在論述建構方法時,必須扣緊「統計學原理(如齊夫定律、詞頻/文件頻率)」與「語料庫來源(通用語料庫 vs. 領域語料庫)」的差異,並強調人工審核的必要性。

🤖
AI 詳解 AI 專屬家教

【破題】 停用詞(Stop Words)係指在資訊檢索系統中,出現頻率極高但缺乏實質語意,對區分文獻內容(即鑑別力)毫無幫助的詞彙。在建立倒排索引(Inverted Index)前將其剔除,能大幅節省儲存空間並提升系統檢索效率。依其適用範圍,可分為「通用停用詞」與「專用(領域)停用詞」。 【論述】

▼ 還有更多解析內容

升級 VIP 解鎖