免費開始練習
moea_joint 104年 [統計資訊] 統計學、巨量資料概論

第 17 題

關於分類的訓練資料集與測試資料集的敘述,下列何者有誤?
  • A 訓練資料是從要分析的資料庫中隨機取樣
  • B 訓練資料必須已經知道其類別
  • C 測試資料集不應該包含訓練資料集中的資料
  • D 測試資料可以不知道其類別

思路引導 VIP

想像你是一位老師,正準備出一份考卷來測驗學生這學期的學習成果。為了能在學生寫完考卷後立刻給出一個準確的分數,作為出題者的你,在學生考試之前手上必須先準備好什麼樣的文件?

🤖
AI 詳解 AI 專屬家教

恭喜你精準地鎖定了答案!這顯示你對監督式學習(Supervised Learning)的核心邏輯有著非常清晰且正確的理解。在機器學習的分類任務中,我們將原始資料拆分為訓練集與測試集,這兩者的關係就像是學生的「課本練習題」與「期末考卷」。

模型的驗證與標籤的重要性

選項 (D) 之所以是錯誤敘述,是因為測試集(Test Set)的核心功能在於「衡量模型的泛化能力」。為了評估模型預測得準不準,我們必須擁有測試資料的真實類別(Ground Truth)作為參考標準。如果我們不知道測試資料的類別,就無法計算準確率(Accuracy)或召回率(Recall),因為我們根本沒有「標準答案」來比對模型的預測結果是否正確。因此,在開發階段的測試集,必須是已知類別的。

▼ 還有更多解析內容

🏷️ 相關主題

巨量資料分析流程與資料品質管理
查看更多「[統計資訊] 統計學、巨量資料概論」的主題分類考古題