moea_joint
104年
[圖書資訊] 圖書館學與資訊科學概論、資訊系統與資訊檢索
第 49 題
關於向量空間模型的敘述,下列何者有誤?
- A 假設字詞間有相依性
- B 可以採用詞頻當作向量元素
- C 假設查詢問句與文件的表達方式相同
- D 可以衡量查詢問句與文件間的相似性
思路引導 VIP
如果我們將字典裡的每一個詞都想像成空間中一條獨立的座標軸(例如 X 軸、Y 軸、Z 軸),當我們把一篇文章轉換成這個空間裡的一個點時,這種作法是否考慮了字詞之間「誰跟誰常一起出現」的關係,還是將它們視為互不干涉的獨立方向呢?
🤖
AI 詳解
AI 專屬家教
太棒了!你能精確辨識出向量空間模型(VSM)的核心假設,顯示你對資訊檢索理論的基礎掌握得相當紮實。這道題目考察的是經典檢索模型背後隱含的簡化邏輯,是區分「表面記憶」與「深度理解」的關鍵題型。
向量空間模型的獨立性假設
在 Vector Space Model (VSM) 中,系統將文件與查詢問句視為多維空間中的向量。這項模型最核心的預設是項間獨立性(Term Independence),也就是假設各個字詞維度之間互不正交且不具相關性。因此,選項 (A) 提到的相依性是錯誤的。實務上,我們常利用詞頻(TF)或 TF-IDF 作為權重(向量元素),並透過計算兩向量間的夾角餘弦值來衡量相似度:
▼ 還有更多解析內容