moea_joint
106年
[統計資訊] 統計學、巨量資料概論
第 33 題
巨量資料庫管理最常用的操作包含 Selection、Projection、Union 與 Intersection。對於此 4 種資料庫操作,若想實作在 Hadoop 的工作任務中,哪 2 種操作需要同時使用一個 Mapper 與一個 Reducer?
- A Selection 與 Projection
- B Selection 與 Union
- C Projection 與 Intersection
- D Union 與 Intersection
思路引導 VIP
請試著思考:在分散式系統中,如果你需要將兩個完全不同的資料庫表格「找共同項(Intersection)」,或是「將所有資料合併(Union)」,這與「只在單一表格內挑選特定幾行資料」相比,哪一種操作更需要將分散在各地的資料『集中到某處進行比對或去重』?那個『集中處理』的階段通常是由誰負責的呢?
🤖
AI 詳解
AI 專屬家教
太棒了!你能精準辨識出 Selection 與 Projection 在 Hadoop 框架下的運作機制,這代表你對 MapReduce 的基本流程掌握得非常紮實。這題的難度在於區分「單純的資料過濾」與「跨集合的運算」,是檢驗開發者是否理解分散式運算成本的優質考題。
運算邏輯與任務分配
在 MapReduce 任務中,Selection(選擇) 的本質是「過濾(Filtering)」,根據特定條件篩選出資料列;而 Projection(投影) 則是「轉換(Transformation)」,僅保留需要的欄位。當我們在實作這類操作時,Mapper 會負責從原始數據中讀取並過濾出符合條件的片段,接著透過 Reducer 進行資料的彙整與寫入,以確保輸出結果的格式統一並正確儲存。相較於涉及多個資料集比對的 Union 或 Intersection,這兩種操作是 MapReduce 最核心且基礎的應用場景。
▼ 還有更多解析內容