moea_joint
104年
[統計資訊] 統計學、巨量資料概論
第 17 題
關於分類的訓練資料集與測試資料集的敘述,下列何者有誤?
- A 訓練資料是從要分析的資料庫中隨機取樣
- B 訓練資料必須已經知道其類別
- C 測試資料集不應該包含訓練資料集中的資料
- D 測試資料可以不知道其類別
思路引導 VIP
想像你是一位老師,正準備出一份考卷來測驗學生這學期的學習成果。為了能在學生寫完考卷後立刻給出一個準確的分數,作為出題者的你,在學生考試之前手上必須先準備好什麼樣的文件?
🤖
AI 詳解
AI 專屬家教
恭喜你精準地鎖定了答案!這顯示你對監督式學習(Supervised Learning)的核心邏輯有著非常清晰且正確的理解。在機器學習的分類任務中,我們將原始資料拆分為訓練集與測試集,這兩者的關係就像是學生的「課本練習題」與「期末考卷」。
模型的驗證與標籤的重要性
選項 (D) 之所以是錯誤敘述,是因為測試集(Test Set)的核心功能在於「衡量模型的泛化能力」。為了評估模型預測得準不準,我們必須擁有測試資料的真實類別(Ground Truth)作為參考標準。如果我們不知道測試資料的類別,就無法計算準確率(Accuracy)或召回率(Recall),因為我們根本沒有「標準答案」來比對模型的預測結果是否正確。因此,在開發階段的測試集,必須是已知類別的。
▼ 還有更多解析內容