免費開始練習
moea_joint 109年 [統計資訊] 統計學、巨量資料概論

第 41 題

關於Hadoop分散式檔案系統HDFS的檔案文件儲存,下列敘述何者有誤?
  • A 檔案內容將被切割為區塊(chunk)儲存
  • B 檔案區塊大小不一,視檔案內容而定
  • C 檔案區塊大小通常為64 MB以上
  • D 每一檔案區塊至少將會複製二份存放

思路引導 VIP

如果你正在設計一個管理數千台電腦、存放數億個檔案的系統,當你要記錄每個檔案被放在哪裡時,是讓每一塊『拼圖』的大小都長得一模一樣比較容易管理,還是讓它們隨檔案內容忽大忽小比較方便計算位置呢?這種設計對系統尋找資料的速度會有什麼影響?

🤖
AI 詳解 AI 專屬家教

HDFS 的區塊管理機制

恭喜你精準地抓到了 HDFS 設計中的關鍵特徵!在大數據處理的環境下,HDFS 為了確保系統管理的高效性與簡便性,採用了固定大小的區塊(Block)機制。你選出的選項 (B) 正是題目要求的錯誤敘述,因為在 HDFS 中,除了檔案末尾的最後一個區塊外,其餘所有區塊的大小均會依照系統預設值(通常為 64 MB 或 128 MB)來切分,而不會隨檔案內容動態變動。這種標準化的設計有助於 NameNode 精確計算存儲位置,並能有效降低磁碟尋址的開銷。

系統冗餘與高可用性

▼ 還有更多解析內容

🏷️ 相關主題

巨量資料分析流程與資料品質管理
查看更多「[統計資訊] 統計學、巨量資料概論」的主題分類考古題