moea_joint_essay
109年
[統計資訊] 資料庫及資料探勘、程式設計
第 一 題
📖 題組:
某公司欲建立【考績】的預測模型,假設【表 1】是 10名員工的資料,請以此為例,依序回答下列問題。(共 2 題,共 25 分) 【表 1】 工號 年齡 性別 部門 考績 021 22 女 行政 乙 022 24 女 行政 乙 023 30 男 銷售 乙 024 33 男 行政 甲 025 35 女 行政 乙 026 36 女 銷售 乙 027 38 男 研發 甲 028 48 女 研發 乙 029 50 男 研發 乙 030 52 男 研發 甲
某公司欲建立【考績】的預測模型,假設【表 1】是 10名員工的資料,請以此為例,依序回答下列問題。(共 2 題,共 25 分) 【表 1】 工號 年齡 性別 部門 考績 021 22 女 行政 乙 022 24 女 行政 乙 023 30 男 銷售 乙 024 33 男 行政 甲 025 35 女 行政 乙 026 36 女 銷售 乙 027 38 男 研發 甲 028 48 女 研發 乙 029 50 男 研發 乙 030 52 男 研發 甲
📝 此題為申論題,共 2 小題
小題 (一)
採用 k-均值分群法(k-means clustering)將【年齡】分成青年與壯年二族群,以標籤取代數值,離散化(discretization)或稱二分法(dichotomization)的結果為何?請簡述計算過程,而且要明確指出哪些員工被歸類為青年,哪些屬於壯年。(10 分)
思路引導 VIP
說明 k-means 將一維數值(年齡)分群的過程,由於資料中 38 歲和 48 歲間有最大差異(差距10),可將其輕易切分為兩群,求得二分法之結果。
小題 (二)
延續上題,進行【年齡】離散化後,若用單純貝氏分類器(Naïve Bayes)來建立【考績】的預測模型,新進員工【工號 = 031, 年齡 = 50, 性別 = 男, 部門 = 研發】的預測考績為何?請簡述計算過程,並明確指出預測結果的考績為何。(15 分)
思路引導 VIP
運用單純貝氏分類器,根據公式 P(類別|特徵) ∝ P(類別) × Π P(特徵|類別),分別計算在「甲」及「乙」下的機率值並比較大小。