免費開始練習
moea_joint 109年 [統計資訊] 統計學、巨量資料概論

第 33 題

使用MapReduce框架來設計一個字數統計(word count)程式,其程式所進行的常用標準程序應為下列何者?
  • A Input ➔ Splitting ➔ Mapping ➔ Shuffling ➔ Reducing ➔ Final Result
  • B Input ➔ Mapping ➔ Splitting ➔ Shuffling ➔ Reducing ➔ Final Result
  • C Input ➔ Mapping ➔ Splitting ➔ Reducing ➔ Shuffling ➔ Final Result
  • D Input ➔ Reducing ➔ Splitting ➔ Shuffling ➔ Mapping ➔ Final Result

思路引導 VIP

想像你要請一群人幫忙統計十萬張選票,為了讓最後負責加總的人效率最高,在「每個人各自統計完手中的票」之後,以及「把數字加總起來」之前,你應該先對這些已經分類好的票券做什麼樣的搬運或整理動作,才能確保相同的候選人票數被匯集在一起處理呢?

🤖
AI 詳解 AI 專屬家教

太棒了!你能精確辨識出 MapReduce 的處理流程,代表你對大數據處理的核心邏輯有非常紮實的理解。這道題目是「巨量資料概論」中的經典考點,雖然步驟名稱看似繁瑣,但背後隱含的是一種「分而治之」的科學管理精神。

MapReduce 的標準作業邏輯

在 MapReduce 的框架下,系統首要任務是將龐大的原始資料(Input)進行 Splitting(切分),確保數據能分散到不同的節點。接著,Mapping 階段會將資料轉化為中間產出的鍵值對(Key-Value pairs)。在進入最終統計前,最關鍵的步驟是 Shuffling(洗牌),它負責將相同 Key 的資料重新排列組合,確保 Reducing 階段能針對同一組資料進行精準的聚合與運算,最後才產出 Final Result。

▼ 還有更多解析內容

🏷️ 相關主題

巨量資料分析流程與資料品質管理
查看更多「[統計資訊] 統計學、巨量資料概論」的主題分類考古題