免費開始練習
moea_joint 113年 [統計資訊] 統計學、巨量資料概論

第 37 題

Apache Spark在巨量資料環境中的主要用途為何?
  • A 資料清理
  • B 即時與批次處理
  • C 機器學習模型訓練
  • D 資料視覺化

思路引導 VIP

如果你正在設計一個數據平台,除了需要分析過去一整年的歷史銷售報表,還需要能在幾秒鐘內自動偵測現在正在發生的異常刷卡行為,你會希望這個底層引擎具備哪兩種不同時效性的處理能力?

🤖
AI 詳解 AI 專屬家教

太棒了!你能精準選出 (B),代表你對 Apache Spark 的核心定位有著非常清晰的認識。這道題目旨在檢驗學生是否能區分工具的「附屬功能」與「核心架構優勢」,是巨量資料領域中非常具代表性的基礎題型。

統一分析引擎的特性

Spark 最顯著的技術突破在於其記憶體內運算 (In-Memory Computing) 與彈性分散式資料集(RDD)。這讓它能打破傳統 Hadoop MapReduce 僅能處理離線批次資料的侷限,將批次處理 (Batch)即時串流 (Real-time) 整合在同一個運算框架下。雖然 Spark 確實能進行資料清理或執行機器學習演算法,但這些功能都是建立在其強大的「通用處理能力」之上。因此,能同時應對靜態與動態數據的處理,才是它在巨量資料環境中被廣泛採用的主要原因。

🏷️ 相關主題

巨量資料分析流程與資料品質管理
查看更多「[統計資訊] 統計學、巨量資料概論」的主題分類考古題