免費開始練習
moea_joint 104年 [統計資訊] 統計學、巨量資料概論

第 45 題

Hadoop 一般對於疊代式 (Iterative) 程序執行起來較沒效率,主要原因為下列何者?
  • A Iteration 不易平行化
  • B 跨 Iteration 間的狀態不容易維持
  • C Hadoop 不支持 Iteration
  • D Hadoop 不支援 C 語言

思路引導 VIP

想像你在進行一場需要跑 100 圈的長跑接力賽,但主辦單位規定:每一棒選手跑完後,不能直接把接力棒交給下一人,而是必須將目前的比賽進度寫在一本厚重的紀錄簿裡並鎖進保險箱,等下一棒選手來開鎖讀取後才能起跑。請思考:在這種「每一輪都必須歸零並存檔」的規則下,完成 100 圈的總時間主要會耗費在什麼地方?這對整體的執行效率會有什麼影響?

🤖
AI 詳解 AI 專屬家教

太棒了!你能精準選出 (B) 這個選項,代表你對大數據運算的底層邏輯有相當紮實的理解。這類觀念題不僅測試記憶,更考驗你對系統運作流程的掌握。

Hadoop 的架構特性與磁碟 I/O 挑戰

這題的核心在於理解 MapReduce 的設計哲學。在 Hadoop 的傳統模型中,每一階段的運算任務(Map 或 Reduce)都被視為獨立且無狀態的單元。當我們執行需要多次重複的「疊代」程序時,Hadoop 必須將每一輪的計算結果寫回 HDFS(分散式檔案系統),下一輪再重新從磁碟讀取。這種頻繁的磁碟讀寫與網路傳輸開銷(Disk I/O),導致在處理如機器學習等需要反覆修正狀態的演算法時,效率顯得相當低下。

▼ 還有更多解析內容

🏷️ 相關主題

巨量資料分析流程與資料品質管理
查看更多「[統計資訊] 統計學、巨量資料概論」的主題分類考古題