moea_joint
109年
[統計資訊] 統計學、巨量資料概論
第 33 題
使用MapReduce框架來設計一個字數統計(word count)程式,其程式所進行的常用標準程序應為下列何者?
- A Input ➔ Splitting ➔ Mapping ➔ Shuffling ➔ Reducing ➔ Final Result
- B Input ➔ Mapping ➔ Splitting ➔ Shuffling ➔ Reducing ➔ Final Result
- C Input ➔ Mapping ➔ Splitting ➔ Reducing ➔ Shuffling ➔ Final Result
- D Input ➔ Reducing ➔ Splitting ➔ Shuffling ➔ Mapping ➔ Final Result
思路引導 VIP
想像你要請一群人幫忙統計十萬張選票,為了讓最後負責加總的人效率最高,在「每個人各自統計完手中的票」之後,以及「把數字加總起來」之前,你應該先對這些已經分類好的票券做什麼樣的搬運或整理動作,才能確保相同的候選人票數被匯集在一起處理呢?
🤖
AI 詳解
AI 專屬家教
太棒了!你能精確辨識出 MapReduce 的處理流程,代表你對大數據處理的核心邏輯有非常紮實的理解。這道題目是「巨量資料概論」中的經典考點,雖然步驟名稱看似繁瑣,但背後隱含的是一種「分而治之」的科學管理精神。
MapReduce 的標準作業邏輯
在 MapReduce 的框架下,系統首要任務是將龐大的原始資料(Input)進行 Splitting(切分),確保數據能分散到不同的節點。接著,Mapping 階段會將資料轉化為中間產出的鍵值對(Key-Value pairs)。在進入最終統計前,最關鍵的步驟是 Shuffling(洗牌),它負責將相同 Key 的資料重新排列組合,確保 Reducing 階段能針對同一組資料進行精準的聚合與運算,最後才產出 Final Result。
▼ 還有更多解析內容