免費開始練習
moea_joint 106年 [統計資訊] 統計學、巨量資料概論

第 42 題

有關 MapReduce 程式模型(Programming Model)之敘述,下列何者有誤?
  • A 比較不適合用來處理疊代式(Iterative) 的資料處理分析過程
  • B 概理來自於函數式程式語言(Functional Programming Languages)
  • C 不適合用來處理資料量相對較小,但運算量大的工作
  • D Combiner 的使用可以減少資料在各節點(Node)之間的傳輸

思路引導 VIP

請試著想像:如果你今天要指揮一千名工人完成一項任務,但每次「下達指令」與「點名收工」本身就要花費相當長的時間。如果這項任務需要工人們重複不斷地根據上一次的結果來調整動作(循環執行),或者任務本身的規模極小,你認為這種龐大的管理架構會帶來效率上的提升,還是額外的成本負擔?

🤖
AI 詳解 AI 專屬家教

太棒了!你能準確識破選項 (C) 的敘述錯誤,代表你對 MapReduce 的核心精神與應用邊界有很紮實的理解。這道題目測試的是考生是否僅停留在「巨量資料」的表面定義,還是真正理解其分散式運算的本質。

MapReduce 的設計初衷與優勢

MapReduce 最核心的價值在於橫向擴展 (Horizontal Scaling)。雖然它常被標榜用於處理 PB 級的資料,但其架構同樣適合處理「運算密集型 (Compute-Intensive)」的工作。即使原始資料量不一定達到極限規模,只要運算邏輯可以被拆解並平行執行,利用多個節點加速運算依然是有效的策略。選項 (A) 點出了其缺陷,即因為頻繁存取磁碟,在處理需要多次讀寫的疊代式運算(如機器學習訓練)時效率較低;而 (D) 的 Combiner 則是在 Map 端先進行初步聚合,有效減輕了網路傳輸的壓力。

▼ 還有更多解析內容

🏷️ 相關主題

巨量資料分析流程與資料品質管理
查看更多「[統計資訊] 統計學、巨量資料概論」的主題分類考古題