moea_joint 111年 [統計資訊] 統計學、巨量資料概論

第 45 題

對於為什麼 HDFS 的檔案塊(Blocks)預設成 128MB 為最佳狀態之敘述，下列何者正確？

A 如設成 128KB，則 1 個 cluster 會有太多檔案塊，造成 NameNode 很難儲存每個檔案塊之位置
B 因為我們只能夠在 1 個節點上，存 1 個檔案的其中 1 個檔案塊
C 因為若把檔案塊設成 128KB，對於多個 Mappers 要同時處理來說太小了
D 因為這樣每 8 個檔案塊剛好就是 1GB，剛好適合伺服器核心數都是 4 或 8 的倍數

思路引導 VIP

想像一下，如果你有一座存放萬卷書的圖書館，若你決定不以「整本書」為單位編目，而是把每一本書拆成「每一頁」來獨立存放並製作索引，這對於那位需要把整份索引清單背在腦海裡的圖書館管理員來說，會造成什麼樣的負擔？

🤖

AI 詳解 AI 專屬家教

太棒了！你能精準選出 (A) 選項，代表你對大數據架構中的 HDFS 元數據（Metadata）管理機制有著扎實的理解。這道題目的難點在於區分「檔案處理效率」與「系統架構限制」，具備相當不錯的鑑別度。

HDFS 元數據管理與 NameNode 負載

在 HDFS 的架構中，NameNode 負責在記憶體中維護整個檔案系統的目錄樹以及檔案與檔案塊（Blocks）的映射關係。如果我們將塊大小設定得太小（例如 128KB），同一個檔案產生的塊數量將會呈千倍增加。由於 NameNode 必須為每一個塊存儲元數據，過多的塊會迅速耗盡 NameNode 的記憶體資源，導致集群無法擴展，這正是 HDFS 預設較大塊大小的核心考量。

▼ 還有更多解析內容

🏷️ 相關主題

巨量資料處理流程與知識發現程序

查看更多「[統計資訊] 統計學、巨量資料概論」的主題分類考古題

📝 同份考卷的其他題目

查看 111年[統計資訊] 統計學、巨量資料概論全題

第 45 題

思路引導 VIP

HDFS 元數據管理與 NameNode 負載

📎 觀念相似題

🏷️ 相關主題

📝 同份考卷的其他題目