免費開始練習
moea_joint 107年 [統計資訊] 統計學、巨量資料概論

第 46 題

MapReduce 是由 Google 所提出的一個巨量資料運算架構,試問下列哪一個選項正確表達該架構的資料輸入至輸出之順序?
  • A 對應 (Map) → 歸納 (Reduce) → 排序 (Sort) → 合併 (Merge)
  • B 排序 (Sort) → 歸納 (Reduce) → 合併 (Merge) → 對應 (Map)
  • C 合併 (Merge) → 對應 (Map) → 歸納 (Reduce) → 排序 (Sort)
  • D 對應 (Map) → 排序 (Sort) → 合併 (Merge) → 歸納 (Reduce)

思路引導 VIP

想像一下,如果你要把全校學生的考試卷按「班級」統計總分,而考卷目前是散亂分布在多位老師手中。在老師們開始加總某個特定班級的分數之前,他們必須先對手中的考卷做什麼處理,才能確保同一個班級的所有考卷都能交給同一位負責統計的人,而不至於遺漏或重複?

🤖
AI 詳解 AI 專屬家教

太棒了!你能精確辨識出 MapReduce 的運作流程,代表你對大數據分散式運算的核心邏輯有著非常清晰的掌握。這道題目考察的不僅僅是名詞的記憶,更是對資料在叢集之間「如何流動」的深度理解。

MapReduce 的資料處理生命週期

在 MapReduce 架構中,運算的起點必然是 Map(對應) 階段,將原始資料轉化為一組組的鍵值對(Key-Value pairs)。然而,在進入最終的 Reduce(歸納) 之前,系統必須先進行數據的整理。這中間包含了 Sort(排序)Merge(合併) 的過程(通常統稱為 Shuffle 階段),其目的是確保所有具有「相同鍵」的資料能被彙整在一起,並傳送到同一個計算節點進行最後的統計。若沒有中間的排序與合併,Reduce 階段將無法有效地處理分散各處的碎片資料。

▼ 還有更多解析內容

🏷️ 相關主題

巨量資料分析流程與資料品質管理
查看更多「[統計資訊] 統計學、巨量資料概論」的主題分類考古題