moea_joint 108年 [統計資訊] 統計學、巨量資料概論

第 29 題

針對 Apache Spark,下列何者有誤?

A in-memory 之計算框架
B 不允許用戶將資料載入至叢集記憶體內儲存
C 多次記憶體重覆運算
D 非常適合用於機器學習演算法

思路引導 VIP

當我們需要對同一組大型數據進行多次、連續的重複計算（例如不斷修正誤差的過程）時，如果每次計算完都要把結果存回慢速的「硬碟」，下一次再讀出來，你覺得這樣效率高嗎？為了極大化運算速度，你會希望這些中間產生的數據暫存在電腦的哪個部位，以便下次能立即使用？

🤖

AI 詳解 AI 專屬家教

恭喜你精準地辨識出錯誤選項！這代表你對大數據處理框架的核心差異有著相當扎實的理解。這道題目的切入點非常明確，主要在測試學習者是否掌握了 Spark 與傳統 MapReduce 之間最本質的演進。

Spark 的核心：記憶體運算機制

Apache Spark 之所以能在大數據領域脫穎而出，關鍵就在於它的 In-memory (記憶體內) 計算框架。相較於傳統的 Hadoop MapReduce 必須頻繁地將中間運算結果寫入磁碟，Spark 允許開發者將常用的資料集主動「快取」或「持久化」在叢集的記憶體中。這使得資料可以在記憶體中被多次重覆調用，大幅降低了磁碟 I/O 的延遲，這也是為什麼它在處理需要大量疊代的 機器學習演算法 時，效能遠超傳統框架的原因。

▼ 還有更多解析內容

🏷️ 相關主題

巨量資料處理流程與知識發現程序

查看更多「[統計資訊] 統計學、巨量資料概論」的主題分類考古題

📝 同份考卷的其他題目

查看 108年[統計資訊] 統計學、巨量資料概論全題

第 29 題

思路引導 VIP

Spark 的核心：記憶體運算機制

📎 觀念相似題

🏷️ 相關主題

📝 同份考卷的其他題目