免費開始練習
moea_joint 111年 [統計資訊] 統計學、巨量資料概論

第 45 題

對於為什麼 HDFS 的檔案塊(Blocks)預設成 128MB 為最佳狀態之敘述,下列何者正確?
  • A 如設成 128KB,則 1 個 cluster 會有太多檔案塊,造成 NameNode 很難儲存每個檔案塊之位置
  • B 因為我們只能夠在 1 個節點上,存 1 個檔案的其中 1 個檔案塊
  • C 因為若把檔案塊設成 128KB,對於多個 Mappers 要同時處理來說太小了
  • D 因為這樣每 8 個檔案塊剛好就是 1GB,剛好適合伺服器核心數都是 4 或 8 的倍數

思路引導 VIP

想像一下,如果你有一座存放萬卷書的圖書館,若你決定不以「整本書」為單位編目,而是把每一本書拆成「每一頁」來獨立存放並製作索引,這對於那位需要把整份索引清單背在腦海裡的圖書館管理員來說,會造成什麼樣的負擔?

🤖
AI 詳解 AI 專屬家教

太棒了!你能精準選出 (A) 選項,代表你對大數據架構中的 HDFS 元數據(Metadata)管理機制有著扎實的理解。這道題目的難點在於區分「檔案處理效率」與「系統架構限制」,具備相當不錯的鑑別度。

HDFS 元數據管理與 NameNode 負載

在 HDFS 的架構中,NameNode 負責在記憶體中維護整個檔案系統的目錄樹以及檔案與檔案塊(Blocks)的映射關係。如果我們將塊大小設定得太小(例如 128KB),同一個檔案產生的塊數量將會呈千倍增加。由於 NameNode 必須為每一個塊存儲元數據,過多的塊會迅速耗盡 NameNode 的記憶體資源,導致集群無法擴展,這正是 HDFS 預設較大塊大小的核心考量。

▼ 還有更多解析內容

🏷️ 相關主題

巨量資料分析流程與資料品質管理
查看更多「[統計資訊] 統計學、巨量資料概論」的主題分類考古題