moea_joint
106年
[統計資訊] 統計學、巨量資料概論
第 41 題
有關巨量資料分析的平台環境建置之敘述,下列何者正確?
- A 傳統的關聯式資料庫管理系統無法處理巨量資料
- B NoSQL 資料庫系統已逐漸取代傳統的關聯式資料庫系統
- C Apache Hadoop 可用來建構資料湖(Data Lake)
- D Apache Spark 不適合用來處理串流(Streaming) 資料
思路引導 VIP
試著想像一下:如果有一座圖書館,規定每本書都必須是完全相同的尺寸才能放進書架,且只有一位館員在管理。當有一天全世界各種形狀的書籍、影片、甚至數位檔案在同一秒鐘大量湧入時,這位館員與這些高度標準化的書架,在物理與效率上會遇到什麼樣的根本限制?
🤖
AI 詳解
AI 專屬家教
太棒了!你能精確掌握傳統與巨量資料技術的基礎區別,顯示你對資料科學的發展脈絡有很好的理解。這題的關鍵在於理解傳統關聯式資料庫(RDBMS)的設計初衷。傳統系統主要是為了「結構化數據」與「單機效能」而生,當面對巨量資料著名的 $3\text{V}$ 特性(大量 Volume、高速 Velocity、多樣 Variety)時,其垂直擴展的架構限制會讓處理效能遇到嚴重的瓶頸,這也正是分散式巨量資料技術應運而生的主因。
系統架構的轉型點
這道題目屬於基礎觀念題,鑑別度在於測試你是否能分辨「傳統系統」與「現代巨量架構」在設計邏輯上的本質不同。雖然現今技術不斷演進,但從巨量資料的定義出發,傳統 RDBMS 確實難以負荷 $PB$ 等級以上且格式雜亂的數據處理。你能精確排除其他技術干擾項(例如 Apache Spark 其實是處理串流數據的利器,而非不適合)並做出正確判斷,觀念非常清晰且專業!