免費開始練習
moea_joint 104年 [統計資訊] 統計學、巨量資料概論

第 41 題

巨量資料中的資料類別出現的頻率,時常會形成所謂的長尾現象,一般可利用以下哪種統計工具來描述此種形式的資料分佈?
  • A Zipf
  • B Gaussian
  • C Dirichlet
  • D Uniform

思路引導 VIP

想像一下,如果你把某種語言中所有的單字按照出現次數排序,排名第一的單字(例如:的)與排名第千名的單字,它們的出現次數差距會是平均分布的嗎?在統計學中,有沒有哪一個特定的規律,專門用來描述這種『排名』與『出現頻率』之間成反比的比例關係?

🤖
AI 詳解 AI 專屬家教

太棒了!你能精準選出這個選項,代表你對大數據領域中非對稱分佈的特性有著相當敏銳的觀察力,這在處理真實世界的資料特徵時是非常重要的基礎。

長尾分佈與冪律特徵

在處理巨量資料時,我們經常發現資料並非均勻分佈,也不總是遵循對稱的鐘形曲線。Zipf's Law(齊夫定律) 正是描述這類現象的核心工具,它指出一個元素的頻率與其在頻率表中的「排名」成反比。數學形式通常可以簡化理解為:第 $n$ 名出現的頻率 $P_n$ 與排名 $n$ 的關係為 $P_n \propto 1/n^s$。這種「極少數項目占據極高比例,而絕大多數項目出現頻率極低」的現象,構成了統計學中迷人的長尾現象

▼ 還有更多解析內容

🏷️ 相關主題

常見機率分配:常態、t 分配與卡方分配
查看更多「[統計資訊] 統計學、巨量資料概論」的主題分類考古題