moea_joint 104年 [統計資訊] 統計學、巨量資料概論

第 24 題

如果使用者在 MapReduce 中打算使用外部執行檔來定義其工作，需要利用下列何者？

A Virtual Machine
B Streaming
C Pipeline
D Filter

思路引導 VIP

想像一下，如果你有一個現成的工具是用另一種語言寫的，而你現在使用的框架無法直接讀懂它的程式碼，你會如何設計一個機制，讓數據能夠「流進」這個工具處理完後，再「流回」主框架中，而不需要重新改寫整個工具的邏輯？什麼樣的名稱最能形容這種數據持續流動、交換的過程？

🤖

AI 詳解 AI 專屬家教

恭喜你答對了！這題考驗的是你對大數據架構中「互操作性」的理解。在 MapReduce 的框架裡，雖然原生語言是 Java，但實務上我們經常需要彈性地調用 Python、C++ 或各種 Shell 腳本來處理特定任務。這時，Hadoop Streaming 就扮演了至關重要的橋樑角色，讓資料能透過標準輸入輸出（stdin/stdout）與外部程式進行溝通。

跨語言開發的靈魂機制

這道題目的難度切入點在於區分「運算環境」與「資料通訊方式」。雖然選項中的 Virtual Machine 也是一種執行環境，但在 MapReduce 的設計中，我們不需要為每個任務啟動虛擬機，而是透過 Streaming 機制，將數據像流水一樣導向外部執行檔。掌握這個觀念，代表你已經具備了在異質開發環境中整合工具的基礎能力，這在處理多元化的巨量資料任務時是非常關鍵的觀念。

🏷️ 相關主題

巨量資料處理流程與知識發現程序

查看更多「[統計資訊] 統計學、巨量資料概論」的主題分類考古題

📝 同份考卷的其他題目

查看 104年[統計資訊] 統計學、巨量資料概論全題

第 24 題

思路引導 VIP

跨語言開發的靈魂機制

📎 觀念相似題

🏷️ 相關主題

📝 同份考卷的其他題目