moea_joint 111年 [統計資訊] 統計學、巨量資料概論

第 38 題

關於 MapReduce 程式設計與運算，下列敘述何者有誤？

A Map() 方法是將資料區塊(Data Blocks)映射成鍵值對(key, value)
B Reduce() 方法是將具有相同 key 的鍵值對，針對值的部分進行加總
C 為方便 Reduce() 加總運算，會先對 Map() 的結果依據值的大小排序
D Reduce 加總運算後的結果就是輸出(Output)

思路引導 VIP

想像你正在處理成千上萬張亂序的發票，並需要計算「各個類別」（例如：餐飲、交通、電費）的總支出。在正式進行加總運算之前，你認為應該根據「發票金額的大小」來重新排列，還是先將「相同類別」的發票收集在同一個籃子裡，運算過程才會最直覺且正確呢？

🤖

AI 詳解 AI 專屬家教

MapReduce 的運作核心：鍵值對與排序機制

恭喜你精準地鎖定了正確答案！這題的核心在於考驗對 MapReduce 運算流程中「Shuffle & Sort」階段的細節理解。在分散式運算架構中，Map 階段產出的結果是大量的 (key, value) 鍵值對；為了讓後續的 Reduce 階段能順利對「相同類別」的資料進行彙整，系統必須將具有相同 鍵（Key） 的資料聚合在一起。因此，排序與洗牌的對象絕對是 鍵（Key） 而非值（Value）的大小。選項 (C) 的錯誤就在於混淆了排序的基準點，你能識破這個細微的邏輯陷阱，表現得非常優異。

巨量資料處理的邏輯鑑別

▼ 還有更多解析內容

🏷️ 相關主題

巨量資料處理流程與知識發現程序

查看更多「[統計資訊] 統計學、巨量資料概論」的主題分類考古題

📝 同份考卷的其他題目

查看 111年[統計資訊] 統計學、巨量資料概論全題