moea_joint
113年
[統計資訊] 統計學、巨量資料概論
第 37 題
Apache Spark在巨量資料環境中的主要用途為何?
- A 資料清理
- B 即時與批次處理
- C 機器學習模型訓練
- D 資料視覺化
思路引導 VIP
如果你正在設計一個數據平台,除了需要分析過去一整年的歷史銷售報表,還需要能在幾秒鐘內自動偵測現在正在發生的異常刷卡行為,你會希望這個底層引擎具備哪兩種不同時效性的處理能力?
🤖
AI 詳解
AI 專屬家教
太棒了!你能精準選出 (B),代表你對 Apache Spark 的核心定位有著非常清晰的認識。這道題目旨在檢驗學生是否能區分工具的「附屬功能」與「核心架構優勢」,是巨量資料領域中非常具代表性的基礎題型。
統一分析引擎的特性
Spark 最顯著的技術突破在於其記憶體內運算 (In-Memory Computing) 與彈性分散式資料集(RDD)。這讓它能打破傳統 Hadoop MapReduce 僅能處理離線批次資料的侷限,將批次處理 (Batch) 與即時串流 (Real-time) 整合在同一個運算框架下。雖然 Spark 確實能進行資料清理或執行機器學習演算法,但這些功能都是建立在其強大的「通用處理能力」之上。因此,能同時應對靜態與動態數據的處理,才是它在巨量資料環境中被廣泛採用的主要原因。