免費開始練習
moea_joint_essay 106年 [統計資訊] 資料庫及資料探勘、程式設計

第 二 題

📖 題組:
【表 1】是某一簡化後的信用卡交易紀錄表,請試用 k-近鄰算法( k-Nearest Neighbors Algriothm, kNN 或稱案例推論法)回答下列問題。(25 分)
📝 此題為申論題,共 3 小題

小題 (二)

請寫出【表 1】中各欄位(交易編號除外)分別屬於符號型(Nominal)、次序型(Ordinal)、亦或數值型(Numerical)欄位,以及其適合之相似度(Similarity)計算方式。(10 分)
題目圖片

思路引導 VIP

區分各欄位的資料型態:布林值/類別為符號型,有高低之分為次序型,實數為數值型,並對應適當的距離/相似度算法。

🤖
AI 詳解
AI 專屬家教
  1. 退貨與否:符號型 (Nominal)。適合的相似度計算方式為「簡單匹配係數(Simple Matching)」,若兩筆資料相同則距離為0(相似度為1),不同則距離為1(相似度為0)。
  2. 婚姻狀況:符號型 (Nominal)。適合的計算方式同上為「簡單匹配係數」。
  3. 信用等級:次序型 (Ordinal)。具備等級順序(低、中、高),可先將其轉換為數值排名(如1, 2, 3),再計算標準化後的級距差異,公式為 |Rank1 - Rank2| / (總等級數 - 1)。

小題 (一)

請說明何謂 kNN 方法。(5 分)
題目圖片

思路引導 VIP

定義 kNN 的運作機制:計算目標實例與訓練集樣本的距離,找出最近的 k 個鄰居,並依據這 k 個鄰居的標籤進行多數決或平均來預測結果。

🤖
AI 詳解
AI 專屬家教

k-近鄰算法 (kNN, k-Nearest Neighbors Algorithm) 是一種基於實例的機器學習演算法 (Instance-based learning),可用於分類與迴歸。其基本運作原理是:當給定一個未知的測試樣本時,演算法會透過預先定義好的距離或相似度衡量方式(如歐幾里得距離),計算該樣本與訓練資料集中所有樣本的距離,並挑選出距離最近(最相似)的 k 個訓練樣本(即 k 個近鄰)。最後,依據這 k 個近鄰的類別進行多數決投票(分類問題)或數值平均(迴歸問題),以此決定該測試樣本的預測結果。

小題 (三)

假設 k=3 且各欄位的重要性都一樣,請使用上題回答之計算方式,判斷下列新產生之刷卡紀錄為正常或被盜刷。(未列出算式不計分)(10 分)交易編號=011、退貨與否=否、婚姻狀況=已婚、信用等級=高、月薪=10 萬
題目圖片

思路引導 VIP

定義綜合距離 = 退貨差 + 婚姻差 + 信用差 + 薪水差。先量化數值:薪水範圍為3到23,正規化分母為20;信用(低=1, 中=2, 高=3)分母為2。計算目標與001~008的距離並排序,取前三名後多數決。

🤖
AI 詳解
AI 專屬家教

為使各欄位權重一致,對所有特徵進行距離標準化 (介於 0 到 1 之間),綜合距離 D = 區配差(退貨) + 匹配差(婚姻) + 正規化差(信用) + 正規化差(月薪)。 定義轉換:

  • 信用等級:低=1, 中=2, 高=3。最大差異=2。

🏷️ 相關主題

資料探勘之分類與分群演算法應用
查看更多「[統計資訊] 資料庫及資料探勘、程式設計」的主題分類考古題