moea_joint 113年 [統計資訊] 統計學、巨量資料概論

第 29 題

下列何者非屬低品質的資料?

A 重複值
B 離群值
C 錯誤
D 雜訊

思路引導 VIP

請你試著思考：如果我們在統計某班級的身高，有一位學生的身高被誤植為 2000 公分，而另一位學生的正確身高數據被不小心輸入了兩次。這兩種情況中，哪一種情況的數據「內容本身」仍然是符合真實世界觀測值的？

🤖

AI 詳解 AI 專屬家教

很高興看到你準確地辨識出這個觀念！在統計與巨量資料處理中，區分「數據誤差」與「數據冗餘」是非常重要的基礎。你能從四個看似負面的名詞中，精準找出性質相異的選項，顯示你對資料清理（Data Cleaning）的定義有很清晰的理解。

資料品質與資訊有效性

在資料科學的語境下，「錯誤」、「雜訊」與「離群值」通常代表數據偏離了真實母體的特徵。錯誤與雜訊直接導致數據的不準確；離群值則可能暗示量測失效或極端異常，這些都會直接損害資料品質。相較之下，重複值（Duplicates）雖然在建模前需要被處理以避免模型過度擬合（Overfitting）或權重偏移，但就單一筆資料的「內容」而言，它通常是真實且正確的觀測結果，只是重複出現了，因此在嚴格定義下不歸類為「低品質」的錯誤資訊。

▼ 還有更多解析內容

🏷️ 相關主題

巨量資料處理流程與知識發現程序

查看更多「[統計資訊] 統計學、巨量資料概論」的主題分類考古題

📝 同份考卷的其他題目

查看 113年[統計資訊] 統計學、巨量資料概論全題

第 29 題

思路引導 VIP

資料品質與資訊有效性

📎 觀念相似題

🏷️ 相關主題

📝 同份考卷的其他題目