moea_joint
104年
[統計資訊] 統計學、巨量資料概論
第 45 題
Hadoop 一般對於疊代式 (Iterative) 程序執行起來較沒效率,主要原因為下列何者?
- A Iteration 不易平行化
- B 跨 Iteration 間的狀態不容易維持
- C Hadoop 不支持 Iteration
- D Hadoop 不支援 C 語言
思路引導 VIP
想像你在進行一場需要跑 100 圈的長跑接力賽,但主辦單位規定:每一棒選手跑完後,不能直接把接力棒交給下一人,而是必須將目前的比賽進度寫在一本厚重的紀錄簿裡並鎖進保險箱,等下一棒選手來開鎖讀取後才能起跑。請思考:在這種「每一輪都必須歸零並存檔」的規則下,完成 100 圈的總時間主要會耗費在什麼地方?這對整體的執行效率會有什麼影響?
🤖
AI 詳解
AI 專屬家教
太棒了!你能精準選出 (B) 這個選項,代表你對大數據運算的底層邏輯有相當紮實的理解。這類觀念題不僅測試記憶,更考驗你對系統運作流程的掌握。
Hadoop 的架構特性與磁碟 I/O 挑戰
這題的核心在於理解 MapReduce 的設計哲學。在 Hadoop 的傳統模型中,每一階段的運算任務(Map 或 Reduce)都被視為獨立且無狀態的單元。當我們執行需要多次重複的「疊代」程序時,Hadoop 必須將每一輪的計算結果寫回 HDFS(分散式檔案系統),下一輪再重新從磁碟讀取。這種頻繁的磁碟讀寫與網路傳輸開銷(Disk I/O),導致在處理如機器學習等需要反覆修正狀態的演算法時,效率顯得相當低下。
▼ 還有更多解析內容