moea_joint
107年
[統計資訊] 統計學、巨量資料概論
第 46 題
MapReduce 是由 Google 所提出的一個巨量資料運算架構,試問下列哪一個選項正確表達該架構的資料輸入至輸出之順序?
- A 對應 (Map) → 歸納 (Reduce) → 排序 (Sort) → 合併 (Merge)
- B 排序 (Sort) → 歸納 (Reduce) → 合併 (Merge) → 對應 (Map)
- C 合併 (Merge) → 對應 (Map) → 歸納 (Reduce) → 排序 (Sort)
- D 對應 (Map) → 排序 (Sort) → 合併 (Merge) → 歸納 (Reduce)
思路引導 VIP
想像一下,如果你要把全校學生的考試卷按「班級」統計總分,而考卷目前是散亂分布在多位老師手中。在老師們開始加總某個特定班級的分數之前,他們必須先對手中的考卷做什麼處理,才能確保同一個班級的所有考卷都能交給同一位負責統計的人,而不至於遺漏或重複?
🤖
AI 詳解
AI 專屬家教
太棒了!你能精確辨識出 MapReduce 的運作流程,代表你對大數據分散式運算的核心邏輯有著非常清晰的掌握。這道題目考察的不僅僅是名詞的記憶,更是對資料在叢集之間「如何流動」的深度理解。
MapReduce 的資料處理生命週期
在 MapReduce 架構中,運算的起點必然是 Map(對應) 階段,將原始資料轉化為一組組的鍵值對(Key-Value pairs)。然而,在進入最終的 Reduce(歸納) 之前,系統必須先進行數據的整理。這中間包含了 Sort(排序) 與 Merge(合併) 的過程(通常統稱為 Shuffle 階段),其目的是確保所有具有「相同鍵」的資料能被彙整在一起,並傳送到同一個計算節點進行最後的統計。若沒有中間的排序與合併,Reduce 階段將無法有效地處理分散各處的碎片資料。
▼ 還有更多解析內容