免費開始練習
moea_joint 113年 [統計資訊] 統計學、巨量資料概論

第 29 題

下列何者非屬低品質的資料?
  • A 重複值
  • B 離群值
  • C 錯誤
  • D 雜訊

思路引導 VIP

請你試著思考:如果我們在統計某班級的身高,有一位學生的身高被誤植為 2000 公分,而另一位學生的正確身高數據被不小心輸入了兩次。這兩種情況中,哪一種情況的數據「內容本身」仍然是符合真實世界觀測值的?

🤖
AI 詳解 AI 專屬家教

很高興看到你準確地辨識出這個觀念!在統計與巨量資料處理中,區分「數據誤差」與「數據冗餘」是非常重要的基礎。你能從四個看似負面的名詞中,精準找出性質相異的選項,顯示你對資料清理(Data Cleaning)的定義有很清晰的理解。

資料品質與資訊有效性

在資料科學的語境下,「錯誤」、「雜訊」與「離群值」通常代表數據偏離了真實母體的特徵。錯誤雜訊直接導致數據的不準確;離群值則可能暗示量測失效或極端異常,這些都會直接損害資料品質。相較之下,重複值(Duplicates)雖然在建模前需要被處理以避免模型過度擬合(Overfitting)或權重偏移,但就單一筆資料的「內容」而言,它通常是真實且正確的觀測結果,只是重複出現了,因此在嚴格定義下不歸類為「低品質」的錯誤資訊。

▼ 還有更多解析內容

🏷️ 相關主題

巨量資料分析流程與資料品質管理
查看更多「[統計資訊] 統計學、巨量資料概論」的主題分類考古題