moea_joint_essay 106年 [統計資訊] 資料庫及資料探勘、程式設計

第二題

📖 題組：
【表 1】是某一簡化後的信用卡交易紀錄表，請試用 k-近鄰算法( k-Nearest Neighbors Algriothm, kNN 或稱案例推論法)回答下列問題。（25 分）

📝 此題為申論題，共 3 小題

小題 (二)

請寫出【表 1】中各欄位(交易編號除外)分別屬於符號型(Nominal)、次序型(Ordinal)、亦或數值型(Numerical)欄位，以及其適合之相似度(Similarity)計算方式。（10 分）

思路引導 VIP

區分各欄位的資料型態：布林值/類別為符號型，有高低之分為次序型，實數為數值型，並對應適當的距離/相似度算法。

🤖

AI 詳解

AI 專屬家教

退貨與否：符號型 (Nominal)。適合的相似度計算方式為「簡單匹配係數(Simple Matching)」，若兩筆資料相同則距離為0(相似度為1)，不同則距離為1(相似度為0)。
婚姻狀況：符號型 (Nominal)。適合的計算方式同上為「簡單匹配係數」。
信用等級：次序型 (Ordinal)。具備等級順序(低、中、高)，可先將其轉換為數值排名(如1, 2, 3)，再計算標準化後的級距差異，公式為 |Rank1 - Rank2| / (總等級數 - 1)。

小題 (一)

請說明何謂 kNN 方法。（5 分）

思路引導 VIP

定義 kNN 的運作機制：計算目標實例與訓練集樣本的距離，找出最近的 k 個鄰居，並依據這 k 個鄰居的標籤進行多數決或平均來預測結果。

🤖

AI 詳解

AI 專屬家教

k-近鄰算法 (kNN, k-Nearest Neighbors Algorithm) 是一種基於實例的機器學習演算法 (Instance-based learning)，可用於分類與迴歸。其基本運作原理是：當給定一個未知的測試樣本時，演算法會透過預先定義好的距離或相似度衡量方式（如歐幾里得距離），計算該樣本與訓練資料集中所有樣本的距離，並挑選出距離最近（最相似）的 k 個訓練樣本（即 k 個近鄰）。最後，依據這 k 個近鄰的類別進行多數決投票（分類問題）或數值平均（迴歸問題），以此決定該測試樣本的預測結果。

小題 (三)

假設 k=3 且各欄位的重要性都一樣，請使用上題回答之計算方式，判斷下列新產生之刷卡紀錄為正常或被盜刷。(未列出算式不計分)（10 分）交易編號=011、退貨與否=否、婚姻狀況=已婚、信用等級=高、月薪=10 萬

思路引導 VIP

定義綜合距離 = 退貨差 + 婚姻差 + 信用差 + 薪水差。先量化數值：薪水範圍為3到23，正規化分母為20；信用(低=1, 中=2, 高=3)分母為2。計算目標與001~008的距離並排序，取前三名後多數決。

🤖

AI 詳解

AI 專屬家教

為使各欄位權重一致，對所有特徵進行距離標準化 (介於 0 到 1 之間)，綜合距離 D = 區配差(退貨) + 匹配差(婚姻) + 正規化差(信用) + 正規化差(月薪)。定義轉換：

信用等級：低=1, 中=2, 高=3。最大差異=2。

🏷️ 相關主題

資料探勘中的分類與分群演算法應用

查看更多「[統計資訊] 資料庫及資料探勘、程式設計」的主題分類考古題

📝 同份考卷的其他題目

查看 106年[統計資訊] 資料庫及資料探勘、程式設計全題

第 二 題

小題 (二)

思路引導 VIP

小題 (一)

思路引導 VIP

小題 (三)

思路引導 VIP

📎 觀念相似題

🏷️ 相關主題

📝 同份考卷的其他題目

第二題