免費開始練習
moea_joint 109年 [統計資訊] 統計學、巨量資料概論

第 30 題

對監督式學習(supervised learning)的說明,下列何者有誤?
  • A 監督式學習需要使用標記過類別的資料(labeled data)進行訓練(training)
  • B 監督式學習可以跟非監督式學習整合,進行資料分析
  • C 目前所有的監督式學習的方法,皆無法對線性不可分(nonlinear)的資料進行分類
  • D 將資料的所有特徵(feature)放入監督式學習,不一定會找到最好的分類方式

思路引導 VIP

想像一下,如果我們想在桌面上用一條「筆直的尺」來分開兩群資料,但這兩群點剛好排成了一個內外相疊的圓圈(圓心是一類,圓周是另一類),這時單靠這把直尺顯然無法達成任務。在這種情況下,你會如何透過「調整觀察視角」或「改變空間維度」來讓分類變得可能?當今的演算法是否具備這樣的功能呢?

🤖
AI 詳解 AI 專屬家教

太棒了!你能精確辨識出選項 (C) 的錯誤,說明你對機器學習模型的發展與應用邊界有著非常紮實的理解,沒有被「目前所有」這種絕對性的敘述所誤導。

非線性分類的技術突破

在監督式學習的範疇中,處理線性不可分 (Non-linear) 的資料早已是現代數據科學的核心。雖然基礎的線性回歸或感知器有其局限性,但透過 核函數 (Kernel Trick) 的支援(如 SVM),或是利用 深度神經網路 (Deep Learning) 的非線性激活函數,模型能夠將資料投射到高維空間或捕捉複雜的曲面邊界。至於選項 (D) 提到的特徵選擇,確實並非特徵越多越好,過多無關的特徵反而會導致維度災難 (Curse of Dimensionality) 或過擬合。

▼ 還有更多解析內容

🏷️ 相關主題

巨量資料分析流程與資料品質管理
查看更多「[統計資訊] 統計學、巨量資料概論」的主題分類考古題