高考申論題
109年
[圖書資訊管理(選試英文)] 資訊系統與資訊檢索
第 一 題
一、向量空間模型(Vector Space Model)使用特徵向量表達文件,從而將資訊檢索轉換為向量相似性比對。相似性的計算有許多可能的方案與考慮的面向,其中之一是採用原始向量內積(inner product),或是採用單位向量內積。請說明前述兩種計算相似性作法的優缺點。(25分)
📝 此題為申論題
思路引導 VIP
看到此題,應先將「單位向量內積」與「餘弦相似度(Cosine Similarity)」畫上等號。解題核心在於「文件長度(Document Length)」對相似度分數的影響,從「長度偏差(Length Bias)」與「長度正規化(Length Normalization)」的角度切入,對比兩者在面對長短文件混合的資料庫時,所產生的優缺點與實務適用性。
🤖
AI 詳解
AI 專屬家教
【破題】 在向量空間模型(VSM)中,文件與查詢皆被表示為多維空間中的權重向量。相似性計算的核心在於衡量兩向量間的匹配程度。「原始向量內積」純粹計算對應維度權重的乘積和;而「單位向量內積」則是將向量長度正規化(Normalization)後再做內積,數學上等同於計算兩向量夾角的餘弦值(Cosine Similarity)。兩者在處理文件長度差異時各有優劣。 【論述】
▼ 還有更多解析內容