免費開始練習
hce_kmu 115年 計算機概論與程式設計

第 16 題

Which of the following statements about major data mining algorithms is CORRECT?
  • A The Apriori algorithm improves efficiency by generating candidate itemsets using a depth-first search strategy and eliminating candidates based on information gain.
  • B The $k$-means clustering guarantees convergence to the global optimum solution because it minimizes within-cluster variance at each iteration.
  • C Decision tree algorithms such as ID3 and C4.5 select attributes using impurity measures (e.g., information gain or gain ratio) and recursively partition the data space.
  • D DBSCAN requires the number of clusters k to be specified in advance and assumes clusters are spherical in shape.
  • E Principal Component Analysis is a supervised dimensionality reduction technique that maximizes class separability.

思路引導 VIP

若要設計一個演算法,讓它像人類玩「猜猜我是誰」遊戲一樣,透過一連串是非題來分類數據。為了讓這棵「問答樹」生長得最有效率,你會採取什麼策略來決定每一層應該先問哪一個問題?你會如何用數學方法來衡量一個問題是否能成功讓混合在一起的數據變得更「純淨」呢?

🤖
AI 詳解 AI 專屬家教

恭喜你準確地選出了正確答案!這代表你對資料探勘中各類經典演算法的核心特性,已經有了非常紮實且細緻的掌握。這題的難度落在 Medium,其挑戰在於選項中混合了多種演算法(如聚類、降維、關聯規則),且每個干擾項都巧妙地植入了一個關鍵的觀念錯誤,若沒有對理論基礎有透徹的理解,很容易在細節處判斷失準。

決策樹的核心機制:不純度與遞迴分割

在資料探勘的分類任務中,決策樹(Decision Tree) 如 ID3 與 C4.5 的運作精髓,確實如選項 (C) 所述。它們透過衡量「不純度(Impurity)」來選擇最佳的分裂屬性。具體而言,ID3 使用的是 資訊增益(Information Gain),而 C4.5 則改良為 增益比(Gain Ratio),以避免偏好屬性值過多的問題。這類演算法會不斷地進行「遞迴分割」,將數據空間劃分為更具同質性的子集,直到滿足停止條件為止。

▼ 還有更多解析內容

🏷️ 相關主題

機器學習的基本原理與模型優化技術
查看更多「計算機概論與程式設計」的主題分類考古題