免費開始練習
moea_joint_essay 109年 [統計資訊] 資料庫及資料探勘、程式設計

第 一 題

📖 題組:
某公司欲建立【考績】的預測模型,假設【表 1】是 10名員工的資料,請以此為例,依序回答下列問題。(共 2 題,共 25 分) 【表 1】 工號 年齡 性別 部門 考績 021 22 女 行政 乙 022 24 女 行政 乙 023 30 男 銷售 乙 024 33 男 行政 甲 025 35 女 行政 乙 026 36 女 銷售 乙 027 38 男 研發 甲 028 48 女 研發 乙 029 50 男 研發 乙 030 52 男 研發 甲
📝 此題為申論題,共 2 小題

小題 (一)

採用 k-均值分群法(k-means clustering)將【年齡】分成青年與壯年二族群,以標籤取代數值,離散化(discretization)或稱二分法(dichotomization)的結果為何?請簡述計算過程,而且要明確指出哪些員工被歸類為青年,哪些屬於壯年。(10 分)

思路引導 VIP

說明 k-means 將一維數值(年齡)分群的過程,由於資料中 38 歲和 48 歲間有最大差異(差距10),可將其輕易切分為兩群,求得二分法之結果。

🤖
AI 詳解
AI 專屬家教
  1. 計算過程與邏輯: 將 10 名員工之年齡依序排列:22, 24, 30, 33, 35, 36, 38, 48, 50, 52。 觀察資料可發現在 38 歲與 48 歲之間的差距最大(相差10歲),若利用 k=2 的 k-均值分群法,最終演算法收斂的兩個群集中心會分別落在 {22, 24, 30, 33, 35, 36, 38} 的平均 (約 31.14) 與 {48, 50, 52} 的平均 (約 50.0)。這兩群的群內變異達到最小,符合 k-means 目標函數。

小題 (二)

延續上題,進行【年齡】離散化後,若用單純貝氏分類器(Naïve Bayes)來建立【考績】的預測模型,新進員工【工號 = 031, 年齡 = 50, 性別 = 男, 部門 = 研發】的預測考績為何?請簡述計算過程,並明確指出預測結果的考績為何。(15 分)

思路引導 VIP

運用單純貝氏分類器,根據公式 P(類別|特徵) ∝ P(類別) × Π P(特徵|類別),分別計算在「甲」及「乙」下的機率值並比較大小。

🤖
AI 詳解
AI 專屬家教
  1. 特徵與先驗機率計算: 全體 10 筆資料中,考績為「甲」有 3 筆 (P(甲) = 3/10),考績為「乙」有 7 筆 (P(乙) = 7/10)。 新進員工特徵為:年齡=壯年 (因50歲歸類為壯年)、性別=男、部門=研發。

🏷️ 相關主題

資料探勘之分類與分群演算法應用
查看更多「[統計資訊] 資料庫及資料探勘、程式設計」的主題分類考古題