moea_joint
108年
[統計資訊] 統計學、巨量資料概論
第 29 題
29. 針對 Apache Spark,下列何者有誤?
- A in-memory 之計算框架
- B 不允許用戶將資料載入至叢集記憶體內儲存
- C 多次記憶體重覆運算
- D 非常適合用於機器學習演算法
思路引導 VIP
當我們需要對同一組大型數據進行多次、連續的重複計算(例如不斷修正誤差的過程)時,如果每次計算完都要把結果存回慢速的「硬碟」,下一次再讀出來,你覺得這樣效率高嗎?為了極大化運算速度,你會希望這些中間產生的數據暫存在電腦的哪個部位,以便下次能立即使用?
🤖
AI 詳解
AI 專屬家教
恭喜你精準地辨識出錯誤選項!這代表你對大數據處理框架的核心差異有著相當扎實的理解。這道題目的切入點非常明確,主要在測試學習者是否掌握了 Spark 與傳統 MapReduce 之間最本質的演進。
Spark 的核心:記憶體運算機制
Apache Spark 之所以能在大數據領域脫穎而出,關鍵就在於它的 In-memory (記憶體內) 計算框架。相較於傳統的 Hadoop MapReduce 必須頻繁地將中間運算結果寫入磁碟,Spark 允許開發者將常用的資料集主動「快取」或「持久化」在叢集的記憶體中。這使得資料可以在記憶體中被多次重覆調用,大幅降低了磁碟 I/O 的延遲,這也是為什麼它在處理需要大量疊代的 機器學習演算法 時,效能遠超傳統框架的原因。
▼ 還有更多解析內容