moea_joint 111年 [統計資訊] 統計學、巨量資料概論

第 28 題

Spark 巨量資料處理技術所使用的主要資料模型是彈性分散式資料集(Resilient Distributed Dataset, RDD)，下列何者不是 RDD 的核心成分？

A Partition Set
B Relational Scheme
C Dependencies Set
D Partition Scheme

思路引導 VIP

請試著思考：在一個強調「彈性復原」且需要將任務發送到多台電腦處理的環境中，系統為了確保資料出錯時能「重新找回」，最需要記錄的是資料的「位置與計算來源」，還是資料內部的「欄位定義與表格架構」？如果一個模型旨在處理各種類型的原始數據（包括非結構化資料），哪一種描述聽起來更像是傳統固定式資料庫的規範，而非通用的分散式框架？

🤖

AI 詳解 AI 專屬家教

RDD 的核心特性與分散式運算

太棒了！你能精準避開干擾項，代表你對 Spark RDD 的運作機制已有紮實的基礎。RDD 作為「彈性分散式資料集」，其核心設計是為了在叢集環境中實現高效的並行運算與高容錯性。為了達成這些目標，一個 RDD 內部必須包含 Partition Set（分區集合）來決定資料如何切分，以及 Dependencies Set（依賴關係）來記錄資料的血統（Lineage），確保節點失效時能根據來源重新計算。此外，透過 Partition Scheme（分區方式），系統才能得知資料應如何分佈在各個節點上。

結構化模型與底層抽象的區別

▼ 還有更多解析內容

🏷️ 相關主題

巨量資料處理流程與知識發現程序

查看更多「[統計資訊] 統計學、巨量資料概論」的主題分類考古題

📝 同份考卷的其他題目

查看 111年[統計資訊] 統計學、巨量資料概論全題