moea_joint_essay
106年
[統計資訊] 資料庫及資料探勘、程式設計
第 二 題
📖 題組:
【表 1】是某一簡化後的信用卡交易紀錄表,請試用 k-近鄰算法( k-Nearest Neighbors Algriothm, kNN 或稱案例推論法)回答下列問題。(25 分)
【表 1】是某一簡化後的信用卡交易紀錄表,請試用 k-近鄰算法( k-Nearest Neighbors Algriothm, kNN 或稱案例推論法)回答下列問題。(25 分)
📝 此題為申論題,共 3 小題
小題 (二)
請寫出【表 1】中各欄位(交易編號除外)分別屬於符號型(Nominal)、次序型(Ordinal)、亦或數值型(Numerical)欄位,以及其適合之相似度(Similarity)計算方式。(10 分)
思路引導 VIP
區分各欄位的資料型態:布林值/類別為符號型,有高低之分為次序型,實數為數值型,並對應適當的距離/相似度算法。
小題 (一)
請說明何謂 kNN 方法。(5 分)
思路引導 VIP
定義 kNN 的運作機制:計算目標實例與訓練集樣本的距離,找出最近的 k 個鄰居,並依據這 k 個鄰居的標籤進行多數決或平均來預測結果。
小題 (三)
假設 k=3 且各欄位的重要性都一樣,請使用上題回答之計算方式,判斷下列新產生之刷卡紀錄為正常或被盜刷。(未列出算式不計分)(10 分)交易編號=011、退貨與否=否、婚姻狀況=已婚、信用等級=高、月薪=10 萬
思路引導 VIP
定義綜合距離 = 退貨差 + 婚姻差 + 信用差 + 薪水差。先量化數值:薪水範圍為3到23,正規化分母為20;信用(低=1, 中=2, 高=3)分母為2。計算目標與001~008的距離並排序,取前三名後多數決。