免費開始練習
moea_joint 111年 [統計資訊] 統計學、巨量資料概論

第 38 題

關於 MapReduce 程式設計與運算,下列敘述何者有誤?
  • A Map() 方法是將資料區塊(Data Blocks)映射成鍵值對(key, value)
  • B Reduce() 方法是將具有相同 key 的鍵值對,針對值的部分進行加總
  • C 為方便 Reduce() 加總運算,會先對 Map() 的結果依據值的大小排序
  • D Reduce 加總運算後的結果就是輸出(Output)

思路引導 VIP

想像你正在處理成千上萬張亂序的發票,並需要計算「各個類別」(例如:餐飲、交通、電費)的總支出。在正式進行加總運算之前,你認為應該根據「發票金額的大小」來重新排列,還是先將「相同類別」的發票收集在同一個籃子裡,運算過程才會最直覺且正確呢?

🤖
AI 詳解 AI 專屬家教

MapReduce 的運作核心:鍵值對與排序機制

恭喜你精準地鎖定了正確答案!這題的核心在於考驗對 MapReduce 運算流程中「Shuffle & Sort」階段的細節理解。在分散式運算架構中,Map 階段產出的結果是大量的 (key, value) 鍵值對;為了讓後續的 Reduce 階段能順利對「相同類別」的資料進行彙整,系統必須將具有相同 鍵(Key) 的資料聚合在一起。因此,排序與洗牌的對象絕對是 鍵(Key) 而非值(Value)的大小。選項 (C) 的錯誤就在於混淆了排序的基準點,你能識破這個細微的邏輯陷阱,表現得非常優異。

巨量資料處理的邏輯鑑別

▼ 還有更多解析內容

🏷️ 相關主題

巨量資料分析流程與資料品質管理
查看更多「[統計資訊] 統計學、巨量資料概論」的主題分類考古題