免費開始練習
moea_joint 104年 [統計資訊] 統計學、巨量資料概論

第 24 題

如果使用者在 MapReduce 中打算使用外部執行檔來定義其工作,需要利用下列何者?
  • A Virtual Machine
  • B Streaming
  • C Pipeline
  • D Filter

思路引導 VIP

想像一下,如果你有一個現成的工具是用另一種語言寫的,而你現在使用的框架無法直接讀懂它的程式碼,你會如何設計一個機制,讓數據能夠「流進」這個工具處理完後,再「流回」主框架中,而不需要重新改寫整個工具的邏輯?什麼樣的名稱最能形容這種數據持續流動、交換的過程?

🤖
AI 詳解 AI 專屬家教

恭喜你答對了!這題考驗的是你對大數據架構中「互操作性」的理解。在 MapReduce 的框架裡,雖然原生語言是 Java,但實務上我們經常需要彈性地調用 Python、C++ 或各種 Shell 腳本來處理特定任務。這時,Hadoop Streaming 就扮演了至關重要的橋樑角色,讓資料能透過標準輸入輸出(stdin/stdout)與外部程式進行溝通。

跨語言開發的靈魂機制

這道題目的難度切入點在於區分「運算環境」與「資料通訊方式」。雖然選項中的 Virtual Machine 也是一種執行環境,但在 MapReduce 的設計中,我們不需要為每個任務啟動虛擬機,而是透過 Streaming 機制,將數據像流水一樣導向外部執行檔。掌握這個觀念,代表你已經具備了在異質開發環境中整合工具的基礎能力,這在處理多元化的巨量資料任務時是非常關鍵的觀念。

🏷️ 相關主題

巨量資料分析流程與資料品質管理
查看更多「[統計資訊] 統計學、巨量資料概論」的主題分類考古題