免費開始練習
moea_joint_essay 109年 [統計資訊] 資料庫及資料探勘、程式設計

第 二 題

📖 題組:
若資料庫中有一客戶資料表(Table) CUSTOMER 如下。今利用此資料表訓練一倒傳遞類神經網路(Back Propagation Neural Network),使其可依客戶購買行為判別客戶性別,則應如何設計此類神經網路?請回答下列問題:(共 3 題,共 10 分) CUSTOMER ID Freq UnitPrice Amount Discount Payment Sex ID:客戶編號 Freq:購物頻率(平均每月購買次數) UnitPrice:單價(購買商品平均單價) Amount:每筆購物總價(平均單次購物總價) Discount:購物折扣率(所購商品平均折扣率) Payment:付款方式(主要付款方式:現金、信用卡、行動支付…) Sex:性別
📝 此題為申論題,共 3 小題

小題 (二)

應於輸出層設計幾個神經元?為什麼?(3 分)

思路引導 VIP

目標是預測性別,屬二元分類問題,輸出層設計 1 個或 2 個皆有其原由。

🤖
AI 詳解
AI 專屬家教

應於輸出層設計 1 個(或 2 個) 神經元。 原因: 目標為判別客戶性別 (Sex),這是一個二元分類問題 (Binary Classification,男性或女性)。

小題 (一)

應於輸入層設計幾個神經元?為什麼?(3 分)

思路引導 VIP

考量哪些變數代表「購買行為」,需要排除沒有行為意義的變數(如 ID),而 Payment 為類別變數可能需進行 One-hot Encoding 展開處理。解釋清楚採用特徵的理由即可。

🤖
AI 詳解
AI 專屬家教

應於輸入層設計 5個(或以上) 的神經元。 原因: 模型欲依「客戶購買行為」進行判別,輸入層應包含 Freq(頻率)、UnitPrice(單價)、Amount(總價)、Discount(折扣率)、Payment(付款方式)等特徵,而 ID (客戶編號) 為系統流水號,與購買行為無關,故不納入。

小題 (三)

如果資料庫中有 10 萬筆此種客戶資料,應如何運用這些資料做訓練及測試?(4 分)

思路引導 VIP

說明資料分割的比例 (如 8:2)、交叉驗證(Cross-Validation)、以及資料標準化/正規化等神經網路必要的前處理步驟。

🤖
AI 詳解
AI 專屬家教
  1. 資料預處理 (Preprocessing):因為神經網路對特徵數值範圍敏感,應先將各欄位數值(如 Amount、UnitPrice)進行正規化 (Normalization) 或標準化 (Standardization),並針對 Payment 處理為數值編碼或 One-hot encoding。
  2. 資料集切割 (Data Splitting):將 10 萬筆資料分為「訓練集 (Training Set)」、「驗證集 (Validation Set)」與「測試集 (Testing Set)」。常見比例為 80% 作為訓練(含驗證),20% 作為測試。或者可切分為 70% 訓練、15% 驗證 (用於調整超參數與防範過擬合)、15% 測試。
  3. 交叉驗證 (Cross Validation):若要確保模型穩定度,可利用 K-Fold (如 K=5 或 10) 交叉驗證來訓練模型,確認模型在未看過資料上的表現是否具備泛化能力 (Generalization)。

🏷️ 相關主題

資料探勘之分類與分群演算法應用
查看更多「[統計資訊] 資料庫及資料探勘、程式設計」的主題分類考古題