moea_joint
106年
[統計資訊] 統計學、巨量資料概論
第 47 題
在 Hadoop 中,下列何者為有效的資料分析流程?
- A Input → Reducer → Mapper → Combiner → Output
- B Input → Mapper → Reducer → Combiner → Output
- C Input → Mapper → Combiner → Reducer → Output
- D Input → Reducer → Combiner → Mapper → Output
思路引導 VIP
想像你要統計全台灣所有教室裡的紅筆數量,如果直接把所有筆都寄到台北總部去算,效率會非常低。為了節省運費與時間,你會建議各班級的班長在寄出之前,先在自己班上做什麼樣的預處理動作呢?而這個動作應該發生在什麼時候最合理?
🤖
AI 詳解
AI 專屬家教
太棒了!你能精準辨識出 Hadoop MapReduce 的核心執行流程,代表你對巨量資料處理的邏輯掌握得非常紮實。這題的關鍵在於理解資料「從分散到聚合」的演進過程。
MapReduce 的執行邏輯
在 Hadoop 的標準架構中,資料必須先經過 Mapper 進行切分與初步標籤化(Key-Value pairs)。接著,為了減輕網路傳輸的負擔,Combiner 會在 Map 端先進行「在地化」的初步加總,這就像是先在各個資料小組內做小計。最後,經過混洗(Shuffle)後的資料才會交由 Reducer 進行最終的全域整合與輸出。你正確地將 Combiner 置於 Mapper 之後、Reducer 之前,這正是大數據處理中優化效能的核心設計。
▼ 還有更多解析內容