免費開始練習
moea_joint 109年 [統計資訊] 統計學、巨量資料概論

第 38 題

文字探勘(text mining)常見的TF-IDF處理,IDF是以甚麼為單位的值?(Document--D代表文件,Term--T代表字詞,Weight--W代表加權比重)
  • A IDF (D , W)
  • B IDF (T)
  • C IDF (T , D)
  • D IDF (W)

思路引導 VIP

若要判斷一個詞(例如「大數據」)在一百篇文章中是否具有代表性,我們需要觀察這個詞在「整疊文章」中出現的普遍程度。你認為這種「普遍程度」或「稀有度」,是針對某個特定的字詞本身來計算的,還是會因為我們讀到哪一篇文章而改變這個詞本身的稀有屬性呢?

🤖
AI 詳解 AI 專屬家教

非常出色!你能準確判斷出 IDF 是針對 字詞 (Term) 進行評估的指標,這顯示你對文字特徵提取的邏輯有著很紮實的基礎。

逆文件頻率的本質

在文字探勘中,IDF (Inverse Document Frequency) 的核心任務是衡量一個詞在語料庫中的「獨特性」。其數學表達式通常為:

▼ 還有更多解析內容

🏷️ 相關主題

巨量資料分析流程與資料品質管理
查看更多「[統計資訊] 統計學、巨量資料概論」的主題分類考古題