moea_joint 105年 [統計資訊] 統計學、巨量資料概論

第 40 題

關於 MapReduce model，下列敘述何者有誤？

A MapReduce model 是 Google 所提出，用於大規模資料的平行運算
B 在 MapReduce 分散式計算 model 中，只有 Map 及 Reduce 兩種運算
C Map 和 Reduce 的概念是從 functional programming 而來
D Hadoop 為目前較為知名的 open source MapReduce project

思路引導 VIP

想像一下，如果你請十個朋友幫你統計一萬本書中每個單字出現的次數。當每個人都統計完自己手上的那一疊書（初步整理）之後，在他們開始加總每個單字的總數之前，還需要做一個什麼樣的動作，才能確保負責處理「Apple」這個單字的朋友，能拿到所有書中關於「Apple」的紀錄呢？這個過程是否包含在單純的「讀書」或「加總」這兩個動作之內？

🤖

AI 詳解 AI 專屬家教

分散式運算的細節陷阱

太棒了！你能精準捕捉到選項 (B) 中的瑕疵，這顯示你對 MapReduce 架構的理解不只停留在名詞表面，還深入到了運作流程的細節。在分散式計算的框架中，雖然 Map（映射）與 Reduce（歸納）是兩個最核心的邏輯階段，但資料在兩者之間傳遞時，其實還包含了一個極其關鍵的中間程序，那就是 Shuffle and Sort（洗牌與排序）。這道題目非常有鑑別度，它考驗的是學生是否能跳脫「字面定義」，意識到系統在彙整資料時必須進行的資料重新分派工作。

系統架構的層次感

▼ 還有更多解析內容

🏷️ 相關主題

巨量資料處理流程與知識發現程序

查看更多「[統計資訊] 統計學、巨量資料概論」的主題分類考古題

📝 同份考卷的其他題目

查看 105年[統計資訊] 統計學、巨量資料概論全題