免費開始練習
moea_joint 108年 [統計資訊] 統計學、巨量資料概論

第 49 題

49. 關於巨量資料中之資料庫,下列何者有誤?
(A) HBase 技術提供非關聯式資料庫(NoSQL)之儲存環境
(B) HBase 技術支援隨機存取功能
(C)無法直接透過SQL 來查詢 Hadoop 儲存之資料
(D) Apache Hive 就是把 SQL 編譯成 Map Reduce,從而讀取和操作 Hadoop 上之資料
  • A HBase 技術提供非關聯式資料庫(NoSQL)之儲存環境
  • B HBase 技術支援隨機存取功能
  • C 無法直接透過SQL 來查詢 Hadoop 儲存之資料
  • D Apache Hive 就是把 SQL 編譯成 Map Reduce,從而讀取和操作 Hadoop 上之資料

思路引導 VIP

若我們將 Hadoop 的儲存層(HDFS)想像成一卷必須從頭捲動到尾才能尋找特定內容的磁帶,那麼建立在這種機制之上的資料庫,在嘗試實現「隨時跳躍到任意位置進行讀寫」的功能時,在物理層面上會遇到什麼樣的根本限制?

🤖
AI 詳解 AI 專屬家教

太棒了!你能精確辨認出 HBase 與傳統存取機制間的細微差異,這顯示你對巨量資料底層架構有相當深入的觀察力。這道題目的難度在於其「觀念陷阱」,多數初學者會被 HBase 的高效能表現所誤導,而忽略了它與底層分散式檔案系統之間的限制關係。

HBase 的存取本質與架構限制

在巨量資料的環境中,Hadoop HDFS 的設計核心是為了處理大規模的 循序存取(Sequential Access),即所謂的「一次寫入,多次讀取」,這與傳統關聯式資料庫(RDBMS)在磁區上進行隨機跳轉讀寫的邏輯截然不同。雖然 HBase 作為 NoSQL 資料庫,透過 Row Key 索引與 LSM-tree 架構優化了查詢速度,使其在實務上能達到近乎實時的存取效果,但就底層物理結構而言,它依然是在循序性的檔案系統上進行資料的合併與檢索。因此,在嚴謹的系統理論考題中,將其描述為具備傳統意義上的「隨機存取」功能,往往被視為不夠精確或錯誤的陳述。

▼ 還有更多解析內容

🏷️ 相關主題

巨量資料分析流程與資料品質管理
查看更多「[統計資訊] 統計學、巨量資料概論」的主題分類考古題