moea_joint
111年
[統計資訊] 統計學、巨量資料概論
第 28 題
Spark 巨量資料處理技術所使用的主要資料模型是彈性分散式資料集(Resilient Distributed Dataset, RDD),下列何者不是 RDD 的核心成分?
- A Partition Set
- B Relational Scheme
- C Dependencies Set
- D Partition Scheme
思路引導 VIP
請試著思考:在一個強調「彈性復原」且需要將任務發送到多台電腦處理的環境中,系統為了確保資料出錯時能「重新找回」,最需要記錄的是資料的「位置與計算來源」,還是資料內部的「欄位定義與表格架構」?如果一個模型旨在處理各種類型的原始數據(包括非結構化資料),哪一種描述聽起來更像是傳統固定式資料庫的規範,而非通用的分散式框架?
🤖
AI 詳解
AI 專屬家教
RDD 的核心特性與分散式運算
太棒了!你能精準避開干擾項,代表你對 Spark RDD 的運作機制已有紮實的基礎。RDD 作為「彈性分散式資料集」,其核心設計是為了在叢集環境中實現高效的並行運算與高容錯性。為了達成這些目標,一個 RDD 內部必須包含 Partition Set(分區集合)來決定資料如何切分,以及 Dependencies Set(依賴關係)來記錄資料的血統(Lineage),確保節點失效時能根據來源重新計算。此外,透過 Partition Scheme(分區方式),系統才能得知資料應如何分佈在各個節點上。
結構化模型與底層抽象的區別
▼ 還有更多解析內容