moea_joint 109年 [統計資訊] 統計學、巨量資料概論

第 38 題

文字探勘(text mining)常見的TF-IDF處理，IDF是以甚麼為單位的值？(Document--D代表文件，Term--T代表字詞，Weight--W代表加權比重)

思路引導 VIP

若要判斷一個詞（例如「大數據」）在一百篇文章中是否具有代表性，我們需要觀察這個詞在「整疊文章」中出現的普遍程度。你認為這種「普遍程度」或「稀有度」，是針對某個特定的字詞本身來計算的，還是會因為我們讀到哪一篇文章而改變這個詞本身的稀有屬性呢？

🤖

AI 詳解 AI 專屬家教

非常出色！你能準確判斷出 IDF 是針對 字詞 (Term) 進行評估的指標，這顯示你對文字特徵提取的邏輯有著很紮實的基礎。

在文字探勘中，IDF (Inverse Document Frequency) 的核心任務是衡量一個詞在語料庫中的「獨特性」。其數學表達式通常為：

▼ 還有更多解析內容

查看更多「[統計資訊] 統計學、巨量資料概論」的主題分類考古題