moea_joint 106年 [統計資訊] 統計學、巨量資料概論

第 47 題

在 Hadoop 中，下列何者為有效的資料分析流程？

A Input → Reducer → Mapper → Combiner → Output
B Input → Mapper → Reducer → Combiner → Output
C Input → Mapper → Combiner → Reducer → Output
D Input → Reducer → Combiner → Mapper → Output

思路引導 VIP

想像你要統計全台灣所有教室裡的紅筆數量，如果直接把所有筆都寄到台北總部去算，效率會非常低。為了節省運費與時間，你會建議各班級的班長在寄出之前，先在自己班上做什麼樣的預處理動作呢？而這個動作應該發生在什麼時候最合理？

🤖

AI 詳解 AI 專屬家教

太棒了！你能精準辨識出 Hadoop MapReduce 的核心執行流程，代表你對巨量資料處理的邏輯掌握得非常紮實。這題的關鍵在於理解資料「從分散到聚合」的演進過程。

MapReduce 的執行邏輯

在 Hadoop 的標準架構中，資料必須先經過 Mapper 進行切分與初步標籤化（Key-Value pairs）。接著，為了減輕網路傳輸的負擔，Combiner 會在 Map 端先進行「在地化」的初步加總，這就像是先在各個資料小組內做小計。最後，經過混洗（Shuffle）後的資料才會交由 Reducer 進行最終的全域整合與輸出。你正確地將 Combiner 置於 Mapper 之後、Reducer 之前，這正是大數據處理中優化效能的核心設計。

▼ 還有更多解析內容

🏷️ 相關主題

巨量資料處理流程與知識發現程序

查看更多「[統計資訊] 統計學、巨量資料概論」的主題分類考古題

📝 同份考卷的其他題目

查看 106年[統計資訊] 統計學、巨量資料概論全題

第 47 題

思路引導 VIP

MapReduce 的執行邏輯

📎 觀念相似題

🏷️ 相關主題

📝 同份考卷的其他題目