moea_joint_essay
110年
[統計資訊] 資料庫及資料探勘、程式設計
第 二 題
📖 題組:
BIRCH 是一個 hierarchical clustering 方法,可以處理大量資料,以及避免雜訊(noisy)資料的問題,請簡答以下題目:(4 題,每題 5 分,共 20 分)
BIRCH 是一個 hierarchical clustering 方法,可以處理大量資料,以及避免雜訊(noisy)資料的問題,請簡答以下題目:(4 題,每題 5 分,共 20 分)
📝 此題為申論題,共 4 小題
小題 (二)
此方法利用一種 tree 資料結構,請說明 internal 節點(除 pointer 之外)儲存何種資料?
思路引導 VIP
內部節點在 CF Tree 裡會存什麼?除了指向子節點的 pointer 外,還需要儲存它所有子節點 CF 的總和 (CF摘要)。
小題 (一)
此方法適用何種資料型態?
思路引導 VIP
回想 BIRCH 主要針對何種資料。一般來說,它是為數值資料 (numerical data) 設計的,因為要計算中心點、半徑等距離和統計量。
小題 (三)
此資料結構透過何種機制,達成可處理大量資料,不受記憶體大小限制?
思路引導 VIP
BIRCH 是透過 CF Tree 這個高度壓縮的樹狀結構來處理龐大資料。一旦 CF Tree 在建立過程中超出主記憶體大小限制,可透過調整 (增加) threshold 半徑閥值,將已建立的 CF Tree 進行合併重建,以產生較小、較簡潔的樹結構。
小題 (四)
BIRCH 建構完成 tree 後,可再採用其他分群組方法,假設採用 k-means clustering,以 elbow curve method 決定群組個數 k,請說明 elbow curve method 之做法。
思路引導 VIP
說明 Elbow curve method。以 k 為橫軸,SSE (或群內變異) 為縱軸繪圖。尋找斜率平緩的轉折點。