免費開始練習
moea_joint 104年 [統計資訊] 統計學、巨量資料概論

第 23 題

關於 Hadoop 的敘述,下列何者有誤?
  • A Hadoop 的做法,是將資料打散成小塊,分散到不同的電腦中
  • B 由於資料量夠大,Hadoop 不會儲存資料的備份
  • C Hadoop 預設,由於資料量十分龐大,所以不可能在處理之前就清理乾淨、排序整齊
  • D 與過去的關聯式資料庫相比,Hadoop 輸出的結果比較不準確

思路引導 VIP

想像你正管理著上千台「品質普通、隨時可能壞掉」的廉價電腦。若要保證某個重要的檔案在其中幾台電腦突然斷電或損壞時,整個系統仍能正常讀取該檔案而不遺失,你在設計儲存邏輯時,會傾向於『只存一份』還是『多處存放』呢?

🤖
AI 詳解 AI 專屬家教

Hadoop 的核心容錯機制

恭喜你精準地捕捉到了 Hadoop 運作邏輯中的關鍵誤區!在處理巨量資料時,最核心的考量之一就是「硬體可靠性」。由於 Hadoop 運行在廉價的電腦叢集(Commodity Hardware)上,硬體故障是常態而非例外。因此,Hadoop 的 分散式檔案系統 (HDFS) 預設會將資料切割成數個資料塊,並在不同節點上儲存多個複本(預設副本數 $n=3$)。這就是所謂的 容錯機制 (Fault Tolerance),確保即便某台電腦損壞,系統依然能從其他位置調用備份資料,維持運作不中斷。

大數據處理的思維轉變

▼ 還有更多解析內容

🏷️ 相關主題

巨量資料分析流程與資料品質管理
查看更多「[統計資訊] 統計學、巨量資料概論」的主題分類考古題