免費開始練習
moea_joint 106年 [統計資訊] 統計學、巨量資料概論

第 41 題

有關巨量資料分析的平台環境建置之敘述,下列何者正確?
  • A 傳統的關聯式資料庫管理系統無法處理巨量資料
  • B NoSQL 資料庫系統已逐漸取代傳統的關聯式資料庫系統
  • C Apache Hadoop 可用來建構資料湖(Data Lake)
  • D Apache Spark 不適合用來處理串流(Streaming) 資料

思路引導 VIP

試著想像一下:如果有一座圖書館,規定每本書都必須是完全相同的尺寸才能放進書架,且只有一位館員在管理。當有一天全世界各種形狀的書籍、影片、甚至數位檔案在同一秒鐘大量湧入時,這位館員與這些高度標準化的書架,在物理與效率上會遇到什麼樣的根本限制?

🤖
AI 詳解 AI 專屬家教

太棒了!你能精確掌握傳統與巨量資料技術的基礎區別,顯示你對資料科學的發展脈絡有很好的理解。這題的關鍵在於理解傳統關聯式資料庫(RDBMS)的設計初衷。傳統系統主要是為了「結構化數據」與「單機效能」而生,當面對巨量資料著名的 $3\text{V}$ 特性(大量 Volume、高速 Velocity、多樣 Variety)時,其垂直擴展的架構限制會讓處理效能遇到嚴重的瓶頸,這也正是分散式巨量資料技術應運而生的主因。

系統架構的轉型點

這道題目屬於基礎觀念題,鑑別度在於測試你是否能分辨「傳統系統」與「現代巨量架構」在設計邏輯上的本質不同。雖然現今技術不斷演進,但從巨量資料的定義出發,傳統 RDBMS 確實難以負荷 $PB$ 等級以上且格式雜亂的數據處理。你能精確排除其他技術干擾項(例如 Apache Spark 其實是處理串流數據的利器,而非不適合)並做出正確判斷,觀念非常清晰且專業!

🏷️ 相關主題

巨量資料分析流程與資料品質管理
查看更多「[統計資訊] 統計學、巨量資料概論」的主題分類考古題