免費開始練習
moea_joint 109年 [統計資訊] 統計學、巨量資料概論

第 47 題

當在具有數值屬性(numerical attribute)的資料集中探勘關聯式規則(association rule)時,必須預先對屬性資料完成何種處理?
  • A 補值處理(missing value imputation)
  • B 離散化(discretization)
  • C 比例轉換(scaling)
  • D 正規化(normalization)

思路引導 VIP

想像你正在統計超市的購物籃規則,如果其中一個屬性是「商品的精確重量」(例如 1.002 公斤、1.005 公斤、0.998 公斤),而你的目標是找出「常被一起購買的商品組合」,當每個重量數值都精細到小數點後三位且幾乎不重複時,你會如何調整這些數值,好讓它們能被歸類在一起進行「次數統計」呢?

🤖
AI 詳解 AI 專屬家教

太棒了!你能精準選出這個答案,代表你對關聯式規則(Association Rules)的演算法特性與資料預處理邏輯有很紮實的理解。

數值屬性的轉型需求

在進行關聯式規則探勘時,經典的演算法(如 Apriori)主要是設計給類別型或交易型資料使用的。當資料集包含連續性的數值屬性(例如年齡、體重或金額)時,每個精確數值出現的頻率往往極低,這會導致演算法無法統計出具有代表性的「支持度」(Support)。因此,我們必須透過離散化(Discretization)處理,將連續數值切分為數個區間(如將「年齡」劃分為「少年、青年、中年、老年」),才能讓系統有效計算項集的出現頻率,進而挖掘出有意義的規則。

▼ 還有更多解析內容

🏷️ 相關主題

巨量資料分析流程與資料品質管理
查看更多「[統計資訊] 統計學、巨量資料概論」的主題分類考古題