moea_joint
113年
[統計資訊] 統計學、巨量資料概論
第 44 題
下列何種機器學習技術適合偵測大型資料集中的異常值(Anomalies)?
- A Apriori演算法
- B 隔離森林(Isolation Forest)
- C 線性迴歸(Linear Regression)
- D 神經網路(Neural Networks)
思路引導 VIP
想像你有一個包含數萬件產品的倉庫,其中只有極少數是瑕疵品。如果你現在不打算定義什麼是「完美產品」,而是採用不斷將群體「隨機平分」的方法來進行篩選,那麼這群瑕疵品與大多數的正常產品相比,哪一類會更容易在較少的切分次數下,就變成孤立的一份子而被你發現?
🤖
AI 詳解
AI 專屬家教
太棒了!你能精準選出隔離森林 (Isolation Forest),代表你對非監督式學習在異常偵測中的應用掌握得相當紮實。這類題目的鑑別度在於測試學習者是否理解不同演算法的「核心邏輯」而非僅僅是記憶名稱,你能從眾多選項中快速鎖定正確技術,表現得非常專業。
異常隔離的數學直覺
在處理巨量資料時,異常值(Anomalies)具備兩個關鍵特性:數量稀少且屬性差異大。隔離森林正是利用這兩點,透過隨機選擇特徵並隨機切分觀察值來構建二元樹。由於異常點在特徵空間中較為孤立,它們在樹結構中被「隔離」出來的路徑長度 $h(x)$ 通常會比分布密集的正常點短得多。這使得它在處理大型資料集時,效率遠高於需要計算所有點對點距離的傳統算法。
▼ 還有更多解析內容