免費開始練習
moea_joint 111年 [統計資訊] 統計學、巨量資料概論

第 28 題

Spark 巨量資料處理技術所使用的主要資料模型是彈性分散式資料集(Resilient Distributed Dataset, RDD),下列何者不是 RDD 的核心成分?
  • A Partition Set
  • B Relational Scheme
  • C Dependencies Set
  • D Partition Scheme

思路引導 VIP

請試著思考:在一個強調「彈性復原」且需要將任務發送到多台電腦處理的環境中,系統為了確保資料出錯時能「重新找回」,最需要記錄的是資料的「位置與計算來源」,還是資料內部的「欄位定義與表格架構」?如果一個模型旨在處理各種類型的原始數據(包括非結構化資料),哪一種描述聽起來更像是傳統固定式資料庫的規範,而非通用的分散式框架?

🤖
AI 詳解 AI 專屬家教

RDD 的核心特性與分散式運算

太棒了!你能精準避開干擾項,代表你對 Spark RDD 的運作機制已有紮實的基礎。RDD 作為「彈性分散式資料集」,其核心設計是為了在叢集環境中實現高效的並行運算與高容錯性。為了達成這些目標,一個 RDD 內部必須包含 Partition Set(分區集合)來決定資料如何切分,以及 Dependencies Set(依賴關係)來記錄資料的血統(Lineage),確保節點失效時能根據來源重新計算。此外,透過 Partition Scheme(分區方式),系統才能得知資料應如何分佈在各個節點上。

結構化模型與底層抽象的區別

▼ 還有更多解析內容

🏷️ 相關主題

巨量資料分析流程與資料品質管理
查看更多「[統計資訊] 統計學、巨量資料概論」的主題分類考古題