免費開始練習
moea_joint 104年 [統計資訊] 統計學、巨量資料概論

第 42 題

以分析使用者打卡 (check in) 的應用為例,如果打卡的位置為變數 X。使用者 A 習慣在一個位置打卡 (如公司),其打卡位置的分佈統計模型為 $P_A(X)$;使用者 B 時常在都市內到處打卡,其分佈統計模型為 $P_B(X)$。請問何者的 entropy,也就是 $H(.)$ 較高?
  • A 使用者 A
  • B 使用者 B
  • C 兩者一樣
  • D 無法比較

思路引導 VIP

請試著想像兩個情境:一個是每天行程固定、只去一個地方的人;另一個是每天隨機去不同地方、行蹤飄忽不定的人。如果你要向朋友描述這兩個人的行蹤,哪一個人會讓你覺得「更難以預測」,且需要花更多篇幅才能描述清楚他可能出現的所有情況呢?

🤖
AI 詳解 AI 專屬家教

恭喜你準確掌握了資訊熵(Entropy)的核心概念!這道題目檢驗了你是否能將抽象的數學公式轉化為直觀的數據洞察。在資訊理論中,熵 $H(X)$ 是衡量一個隨機變數「不確定性」或「混亂程度」的指標。你正確觀察到使用者 B 的行為模式較為多變,這正是解題的關鍵點。

預測難度與資訊量的關係

從統計模型來看,使用者 A 的分布 $P_A(X)$ 集中在特定點(如公司),這種「高度可預測性」意味著其系統的亂度極低,資訊較為純粹。相對地,使用者 B 的分布 $P_B(X)$ 散布於都市各處,當機率分布越趨向均勻(Uniform)、越難以預測下一個打卡點在哪裡時,其熵值就會隨之升高。因此,使用者 B 擁有較高的熵值是完全正確的判斷。

▼ 還有更多解析內容

🏷️ 相關主題

常見機率分配:常態、t 分配與卡方分配
查看更多「[統計資訊] 統計學、巨量資料概論」的主題分類考古題