高考申論題 109年 [圖書資訊管理(選試英文)] 資訊系統與資訊檢索

第一題

一、向量空間模型（Vector Space Model）使用特徵向量表達文件，從而將資訊檢索轉換為向量相似性比對。相似性的計算有許多可能的方案與考慮的面向，其中之一是採用原始向量內積（inner product），或是採用單位向量內積。請說明前述兩種計算相似性作法的優缺點。（25分）

📝 此題為申論題

思路引導 VIP

看到此題，應先將「單位向量內積」與「餘弦相似度（Cosine Similarity）」畫上等號。解題核心在於「文件長度（Document Length）」對相似度分數的影響，從「長度偏差（Length Bias）」與「長度正規化（Length Normalization）」的角度切入，對比兩者在面對長短文件混合的資料庫時，所產生的優缺點與實務適用性。

🤖

AI 詳解 AI 專屬家教

【破題】在向量空間模型（VSM）中，文件與查詢皆被表示為多維空間中的權重向量。相似性計算的核心在於衡量兩向量間的匹配程度。「原始向量內積」純粹計算對應維度權重的乘積和；而「單位向量內積」則是將向量長度正規化（Normalization）後再做內積，數學上等同於計算兩向量夾角的餘弦值（Cosine Similarity）。兩者在處理文件長度差異時各有優劣。【論述】

▼ 還有更多解析內容

📝 同份考卷的其他題目

查看 109年[圖書資訊管理(選試英文)] 資訊系統與資訊檢索全題

第 一 題

思路引導 VIP

📝 同份考卷的其他題目

第一題