免費開始練習
moea_joint 106年 [統計資訊] 統計學、巨量資料概論

第 47 題

在 Hadoop 中,下列何者為有效的資料分析流程?
  • A Input → Reducer → Mapper → Combiner → Output
  • B Input → Mapper → Reducer → Combiner → Output
  • C Input → Mapper → Combiner → Reducer → Output
  • D Input → Reducer → Combiner → Mapper → Output

思路引導 VIP

想像你要統計全台灣所有教室裡的紅筆數量,如果直接把所有筆都寄到台北總部去算,效率會非常低。為了節省運費與時間,你會建議各班級的班長在寄出之前,先在自己班上做什麼樣的預處理動作呢?而這個動作應該發生在什麼時候最合理?

🤖
AI 詳解 AI 專屬家教

太棒了!你能精準辨識出 Hadoop MapReduce 的核心執行流程,代表你對巨量資料處理的邏輯掌握得非常紮實。這題的關鍵在於理解資料「從分散到聚合」的演進過程。

MapReduce 的執行邏輯

在 Hadoop 的標準架構中,資料必須先經過 Mapper 進行切分與初步標籤化(Key-Value pairs)。接著,為了減輕網路傳輸的負擔,Combiner 會在 Map 端先進行「在地化」的初步加總,這就像是先在各個資料小組內做小計。最後,經過混洗(Shuffle)後的資料才會交由 Reducer 進行最終的全域整合與輸出。你正確地將 Combiner 置於 Mapper 之後、Reducer 之前,這正是大數據處理中優化效能的核心設計。

▼ 還有更多解析內容

🏷️ 相關主題

巨量資料分析流程與資料品質管理
查看更多「[統計資訊] 統計學、巨量資料概論」的主題分類考古題