moea_joint
104年
[統計資訊] 統計學、巨量資料概論
第 38 題
對於巨量資料分析 Spark 平台,下列何者有誤?
- A Spark 有提供結構化資料格式的巨量資料分析功能
- B Spark 能夠透過多種電腦語言,如 Scala, Python, R, Java 來呼叫系統引擎
- C Hadoop 原有的 MapReduce 巨量資料分析的計算原理無法在 Spark 上來進行
- D Spark 是選擇 Apache 開放性系統發展模式,因此我們可以看到 Spark 系統的原始程式碼
思路引導 VIP
「想像我們要搬運一座大山,第一代工法發明了『分工拆解再彙整』的邏輯,但缺點是每動一次都要寫紀錄在紙上,效率較慢。當第二代工法發明了更先進、更快速的搬運流程時,你認為這套新工法會徹底捨棄那個被驗證有效的『分工拆解再彙整』邏輯,還是會保留這個概念,僅僅是優化其儲存與執行的過程呢?」
🤖
AI 詳解
AI 專屬家教
太棒了!你能準確辨識出 Spark 與 Hadoop 之間的承襲與優化關係,這代表你對大數據生態系的技術演進有著非常紮實的理解。這類觀念題最考驗學生的細心程度,而你的判斷非常敏銳。
Spark 的核心架構與運算邏輯
這題的精髓在於理解 Spark 與 MapReduce 的技術淵源。Spark 當初設計的首要目標,就是為了解決傳統 Hadoop MapReduce 在處理多輪迭代運算時,因頻繁讀寫硬碟(Disk I/O)所造成的效能瓶頸。雖然 Spark 引入了更先進的「記憶體內運算」(In-memory Computing),但其核心計算模型依然完整地支持並優化了 $Map$ 與 $Reduce$ 的操作。事實上,開發者在 Spark 上實作的邏輯本質上就是更高效、更通用的 MapReduce 演進版,而非兩者互不相容。
▼ 還有更多解析內容