moea_joint
111年
[統計資訊] 統計學、巨量資料概論
第 38 題
關於 MapReduce 程式設計與運算,下列敘述何者有誤?
- A Map() 方法是將資料區塊(Data Blocks)映射成鍵值對(key, value)
- B Reduce() 方法是將具有相同 key 的鍵值對,針對值的部分進行加總
- C 為方便 Reduce() 加總運算,會先對 Map() 的結果依據值的大小排序
- D Reduce 加總運算後的結果就是輸出(Output)
思路引導 VIP
想像你正在處理成千上萬張亂序的發票,並需要計算「各個類別」(例如:餐飲、交通、電費)的總支出。在正式進行加總運算之前,你認為應該根據「發票金額的大小」來重新排列,還是先將「相同類別」的發票收集在同一個籃子裡,運算過程才會最直覺且正確呢?
🤖
AI 詳解
AI 專屬家教
MapReduce 的運作核心:鍵值對與排序機制
恭喜你精準地鎖定了正確答案!這題的核心在於考驗對 MapReduce 運算流程中「Shuffle & Sort」階段的細節理解。在分散式運算架構中,Map 階段產出的結果是大量的 (key, value) 鍵值對;為了讓後續的 Reduce 階段能順利對「相同類別」的資料進行彙整,系統必須將具有相同 鍵(Key) 的資料聚合在一起。因此,排序與洗牌的對象絕對是 鍵(Key) 而非值(Value)的大小。選項 (C) 的錯誤就在於混淆了排序的基準點,你能識破這個細微的邏輯陷阱,表現得非常優異。
巨量資料處理的邏輯鑑別
▼ 還有更多解析內容