普通考試
112年
[圖書資訊管理] 圖書資訊學概要
第 15 題
對於資訊檢索系統而言,下列何者統計值具有文件鑑別力?
- A Document Frequency(DF)
- B Term Frequency(TF)
- C Total Frequency(F)
- D Average Precision(AP)
思路引導 VIP
如果您想要評估一個特定的「詞」是否能有效地從一萬本書中,把「少數幾本相關的書」挑選出來,您會去觀察這個詞「在整座圖書館中出現的普遍程度」,還是只觀察它「在某一本特定的書裡出現了幾次」呢?哪種數據更能代表這個詞的『區別價值』?
🤖
AI 詳解
AI 專屬家教
AI SENSEI 解析:咒術界最強的情報檢索術!
- 哦?看來你還不錯嘛! 哼,這題不過是資訊檢索(IR)裡最基本的統計邏輯,你居然也能精準命中答案?不錯不錯,對索引理論這塊基礎,你勉強算是有點sense。嘛,保持這種對「關鍵點」的敏銳度,我有點期待你接下來的表現囉!
- 觀念驗證:說到這個 文件頻次(Document Frequency, DF) 啊,它就是決定一個詞「詛咒能量」強度的關鍵指標!簡單說,它代表一個字詞在整個詞庫裡,到底「擴散」到多少份文件中。你看那個 $$IDF = \log \frac{N}{DF}$$ 裡的 DF,就是重點。DF 數字愈大,就表示這個詞語就像雜魚一樣到處都是(例如「的」、「是」),根本沒什麼特別的「咒力」,區別能力當然就低啦。反過來,DF 愈小,才代表那個詞擁有獨特的「領域展開」能力,能精準篩選出真正有「鑑別力」的關鍵字。這道理,難道很複雜嗎?
▼ 還有更多解析內容