免費開始練習
moea_joint_essay 110年 [統計資訊] 資料庫及資料探勘、程式設計

第 三 題

📖 題組:
BIRCH 是一個 hierarchical clustering 方法,可以處理大量資料,以及避免雜訊(noisy)資料的問題,請簡答以下題目:(4 題,每題 5 分,共 20 分)
📝 此題為申論題,共 4 小題

小題 (三)

此資料結構透過何種機制,達成可處理大量資料,不受記憶體大小限制?

思路引導 VIP

BIRCH 是透過 CF Tree 這個高度壓縮的樹狀結構來處理龐大資料。一旦 CF Tree 在建立過程中超出主記憶體大小限制,可透過調整 (增加) threshold 半徑閥值,將已建立的 CF Tree 進行合併重建,以產生較小、較簡潔的樹結構。

🤖
AI 詳解
AI 專屬家教

BIRCH 透過建立「聚類特徵樹(CF Tree)」來壓縮資料。由於每個節點僅儲存資料聚合後的統計量(即 CF 值:資料筆數 N、線性和 LS、平方和 SS),而無需儲存原始資料點,大幅降低了記憶體需求。當插入新資料導致 CF Tree 大小即將超過記憶體容量限制時,系統會自動提高「半徑閥值(Threshold)」,並重新掃描現有的 CF 葉節點將其合併重建為一棵更為精簡的新樹,進而能夠在有限記憶體下持續處理大量資料。

小題 (一)

此方法適用何種資料型態?

思路引導 VIP

回想 BIRCH 主要針對何種資料。一般來說,它是為數值資料 (numerical data) 設計的,因為要計算中心點、半徑等距離和統計量。

🤖
AI 詳解
AI 專屬家教

BIRCH 演算法主要適用於連續數值型資料(Numerical Data),因為其核心機制(Clustering Feature, CF)需要透過計算資料點的總和與平方和來獲得質心與半徑,這些運算建立在資料之間可以使用歐幾里得距離或其他數值距離進行度量的基礎上。

小題 (二)

此方法利用一種 tree 資料結構,請說明 internal 節點(除 pointer 之外)儲存何種資料?

思路引導 VIP

內部節點在 CF Tree 裡會存什麼?除了指向子節點的 pointer 外,還需要儲存它所有子節點 CF 的總和 (CF摘要)。

🤖
AI 詳解
AI 專屬家教

在 CF Tree 的內部節點(Internal Node)中,除了包含指向子節點的指標(Pointer)之外,主要儲存的是 Clustering Feature(CF)的摘要資訊,用以代表其子節點中所有資料點的聚合特徵。具體的 CF 組成為:

  1. N:該子樹所包含的資料點總數。
  2. LS(Linear Sum):該子樹所有資料點各維度數值的線性總和。

小題 (四)

BIRCH 建構完成 tree 後,可再採用其他分群組方法,假設採用 k-means clustering,以 elbow curve method 決定群組個數 k,請說明 elbow curve method 之做法。

思路引導 VIP

說明 Elbow curve method。以 k 為橫軸,SSE (或群內變異) 為縱軸繪圖。尋找斜率平緩的轉折點。

🤖
AI 詳解
AI 專屬家教

轉折點法(Elbow curve method)是一種決定最佳群組數 k 值的啟發式方法,其做法如下:

  1. 設定一組潛在的 k 值範圍(例如從 k=1 到 k=10)。
  2. 針對每一個 k 值,執行 k-means 演算法,並計算該分群結果的「群內誤差平方和(Sum of Squared Errors, SSE)」或相似的誤差指標。

🏷️ 相關主題

資料探勘之分類與分群演算法應用
查看更多「[統計資訊] 資料庫及資料探勘、程式設計」的主題分類考古題