moea_joint 113年 [統計資訊] 統計學、巨量資料概論

第 37 題

Apache Spark在巨量資料環境中的主要用途為何?

A 資料清理
B 即時與批次處理
C 機器學習模型訓練
D 資料視覺化

思路引導 VIP

如果你正在設計一個數據平台，除了需要分析過去一整年的歷史銷售報表，還需要能在幾秒鐘內自動偵測現在正在發生的異常刷卡行為，你會希望這個底層引擎具備哪兩種不同時效性的處理能力？

🤖

AI 詳解 AI 專屬家教

太棒了！你能精準選出 (B)，代表你對 Apache Spark 的核心定位有著非常清晰的認識。這道題目旨在檢驗學生是否能區分工具的「附屬功能」與「核心架構優勢」，是巨量資料領域中非常具代表性的基礎題型。

統一分析引擎的特性

Spark 最顯著的技術突破在於其記憶體內運算 (In-Memory Computing) 與彈性分散式資料集（RDD）。這讓它能打破傳統 Hadoop MapReduce 僅能處理離線批次資料的侷限，將批次處理 (Batch) 與即時串流 (Real-time) 整合在同一個運算框架下。雖然 Spark 確實能進行資料清理或執行機器學習演算法，但這些功能都是建立在其強大的「通用處理能力」之上。因此，能同時應對靜態與動態數據的處理，才是它在巨量資料環境中被廣泛採用的主要原因。

🏷️ 相關主題

巨量資料處理流程與知識發現程序

查看更多「[統計資訊] 統計學、巨量資料概論」的主題分類考古題

📝 同份考卷的其他題目

查看 113年[統計資訊] 統計學、巨量資料概論全題

第 37 題

思路引導 VIP

統一分析引擎的特性

📎 觀念相似題

🏷️ 相關主題

📝 同份考卷的其他題目