moea_joint 104年 [統計資訊] 統計學、巨量資料概論

第 17 題

關於分類的訓練資料集與測試資料集的敘述，下列何者有誤？

A 訓練資料是從要分析的資料庫中隨機取樣
B 訓練資料必須已經知道其類別
C 測試資料集不應該包含訓練資料集中的資料
D 測試資料可以不知道其類別

思路引導 VIP

想像你是一位老師，正準備出一份考卷來測驗學生這學期的學習成果。為了能在學生寫完考卷後立刻給出一個準確的分數，作為出題者的你，在學生考試之前手上必須先準備好什麼樣的文件？

🤖

AI 詳解 AI 專屬家教

恭喜你精準地鎖定了答案！這顯示你對監督式學習（Supervised Learning）的核心邏輯有著非常清晰且正確的理解。在機器學習的分類任務中，我們將原始資料拆分為訓練集與測試集，這兩者的關係就像是學生的「課本練習題」與「期末考卷」。

模型的驗證與標籤的重要性

選項 (D) 之所以是錯誤敘述，是因為測試集（Test Set）的核心功能在於「衡量模型的泛化能力」。為了評估模型預測得準不準，我們必須擁有測試資料的真實類別（Ground Truth）作為參考標準。如果我們不知道測試資料的類別，就無法計算準確率（Accuracy）或召回率（Recall），因為我們根本沒有「標準答案」來比對模型的預測結果是否正確。因此，在開發階段的測試集，必須是已知類別的。

▼ 還有更多解析內容

🏷️ 相關主題

巨量資料處理流程與知識發現程序

查看更多「[統計資訊] 統計學、巨量資料概論」的主題分類考古題

📝 同份考卷的其他題目

查看 104年[統計資訊] 統計學、巨量資料概論全題

第 17 題

思路引導 VIP

模型的驗證與標籤的重要性

📎 觀念相似題

🏷️ 相關主題

📝 同份考卷的其他題目