高考申論題
111年
[社會行政] 社會研究法
第 二 題
二、在量化研究中,通常會對擬用的數據資料做:遺漏值(missing values)、離群值(outliers)、可能性檢核(wild code checks/ illegal value)、一致性檢核(consistency checks)、跳答檢核(skip/ filter checks)等等查察,以確保原始數據資料品質。請舉例說明上述 5 種數據檢核方式的意涵,並且指出如下虛擬資料中,符合上述 5 種檢核方式的數值(表中若有實例數值請舉一例即可)。(25 分)
變項名稱
樣本序號 sex age eduY pregnantN childN
SN1 1 20 14 1 1
SN2 0 15 9 10 1
SN3 0 30 31 1 0
SN4 1 18 18 777 0
SN5 0 60 6 0 1
SN6 0 65 5 2 10
SN7 2 28 10 0 0
SN8 1 19 777 999 0
變項數值說明:生理性別(sex),0 =女性,1 =男性;年齡(age),0-100 歲;教育年數(eduY),0-30 年;懷孕次數(pregnantN):0-10;親生子女數(childN),1-10 人;適用於各變項值:777=不適用,999=遺漏值。為方便說明起見,可視上表為一 M x N 矩陣,矩陣中元素(數值)可以 Var [row, column]表示之,例如:Var[2,3]=9, Var[3,2]=30, Var[3,3]=31……。
📝 此題為申論題
思路引導 VIP
這題是實作題,測驗考生對「數據清洗(Data Cleaning)」的理解。答題順序:先分別定義五個專有名詞,接著直接對應表格中的數值給出實例。注意題目給定的變項數值範圍(如 age 0-100, eduY 0-30),這是判斷「可能性」與「離群值」的依據。邏輯檢核(如性別與懷孕的關係)則是判斷「一致性」的關鍵。計算座標時要細心,不要數錯行列。
🤖
AI 詳解
AI 專屬家教
【考點分析】 本題考查量化研究中的資料預處理(Data Pre-processing),特別是資料錯誤偵測與清理的實務操作。 【理論/法規依據】
▼ 還有更多解析內容