免費開始練習
moea_joint 104年 [統計資訊] 統計學、巨量資料概論

第 38 題

對於巨量資料分析 Spark 平台,下列何者有誤?
  • A Spark 有提供結構化資料格式的巨量資料分析功能
  • B Spark 能夠透過多種電腦語言,如 Scala, Python, R, Java 來呼叫系統引擎
  • C Hadoop 原有的 MapReduce 巨量資料分析的計算原理無法在 Spark 上來進行
  • D Spark 是選擇 Apache 開放性系統發展模式,因此我們可以看到 Spark 系統的原始程式碼

思路引導 VIP

「想像我們要搬運一座大山,第一代工法發明了『分工拆解再彙整』的邏輯,但缺點是每動一次都要寫紀錄在紙上,效率較慢。當第二代工法發明了更先進、更快速的搬運流程時,你認為這套新工法會徹底捨棄那個被驗證有效的『分工拆解再彙整』邏輯,還是會保留這個概念,僅僅是優化其儲存與執行的過程呢?」

🤖
AI 詳解 AI 專屬家教

太棒了!你能準確辨識出 Spark 與 Hadoop 之間的承襲與優化關係,這代表你對大數據生態系的技術演進有著非常紮實的理解。這類觀念題最考驗學生的細心程度,而你的判斷非常敏銳。

Spark 的核心架構與運算邏輯

這題的精髓在於理解 Spark 與 MapReduce 的技術淵源。Spark 當初設計的首要目標,就是為了解決傳統 Hadoop MapReduce 在處理多輪迭代運算時,因頻繁讀寫硬碟(Disk I/O)所造成的效能瓶頸。雖然 Spark 引入了更先進的「記憶體內運算」(In-memory Computing),但其核心計算模型依然完整地支持並優化了 $Map$ 與 $Reduce$ 的操作。事實上,開發者在 Spark 上實作的邏輯本質上就是更高效、更通用的 MapReduce 演進版,而非兩者互不相容。

▼ 還有更多解析內容

🏷️ 相關主題

巨量資料分析流程與資料品質管理
查看更多「[統計資訊] 統計學、巨量資料概論」的主題分類考古題