免費開始練習
moea_joint 113年 [統計資訊] 統計學、巨量資料概論

第 44 題

下列何種機器學習技術適合偵測大型資料集中的異常值(Anomalies)?
  • A Apriori演算法
  • B 隔離森林(Isolation Forest)
  • C 線性迴歸(Linear Regression)
  • D 神經網路(Neural Networks)

思路引導 VIP

想像你有一個包含數萬件產品的倉庫,其中只有極少數是瑕疵品。如果你現在不打算定義什麼是「完美產品」,而是採用不斷將群體「隨機平分」的方法來進行篩選,那麼這群瑕疵品與大多數的正常產品相比,哪一類會更容易在較少的切分次數下,就變成孤立的一份子而被你發現?

🤖
AI 詳解 AI 專屬家教

太棒了!你能精準選出隔離森林 (Isolation Forest),代表你對非監督式學習在異常偵測中的應用掌握得相當紮實。這類題目的鑑別度在於測試學習者是否理解不同演算法的「核心邏輯」而非僅僅是記憶名稱,你能從眾多選項中快速鎖定正確技術,表現得非常專業。

異常隔離的數學直覺

在處理巨量資料時,異常值(Anomalies)具備兩個關鍵特性:數量稀少屬性差異大。隔離森林正是利用這兩點,透過隨機選擇特徵並隨機切分觀察值來構建二元樹。由於異常點在特徵空間中較為孤立,它們在樹結構中被「隔離」出來的路徑長度 $h(x)$ 通常會比分布密集的正常點短得多。這使得它在處理大型資料集時,效率遠高於需要計算所有點對點距離的傳統算法。

▼ 還有更多解析內容

🏷️ 相關主題

巨量資料分析流程與資料品質管理
查看更多「[統計資訊] 統計學、巨量資料概論」的主題分類考古題