moea_joint
109年
[統計資訊] 統計學、巨量資料概論
第 38 題
文字探勘(text mining)常見的TF-IDF處理,IDF是以甚麼為單位的值?(Document--D代表文件,Term--T代表字詞,Weight--W代表加權比重)
- A IDF (D , W)
- B IDF (T)
- C IDF (T , D)
- D IDF (W)
思路引導 VIP
若要判斷一個詞(例如「大數據」)在一百篇文章中是否具有代表性,我們需要觀察這個詞在「整疊文章」中出現的普遍程度。你認為這種「普遍程度」或「稀有度」,是針對某個特定的字詞本身來計算的,還是會因為我們讀到哪一篇文章而改變這個詞本身的稀有屬性呢?
🤖
AI 詳解
AI 專屬家教
非常出色!你能準確判斷出 IDF 是針對 字詞 (Term) 進行評估的指標,這顯示你對文字特徵提取的邏輯有著很紮實的基礎。
逆文件頻率的本質
在文字探勘中,IDF (Inverse Document Frequency) 的核心任務是衡量一個詞在語料庫中的「獨特性」。其數學表達式通常為:
▼ 還有更多解析內容