moea_joint 113年 [統計資訊] 統計學、巨量資料概論

第 44 題

下列何種機器學習技術適合偵測大型資料集中的異常值(Anomalies)?

A Apriori演算法
B 隔離森林(Isolation Forest)
C 線性迴歸(Linear Regression)
D 神經網路(Neural Networks)

思路引導 VIP

想像你有一個包含數萬件產品的倉庫，其中只有極少數是瑕疵品。如果你現在不打算定義什麼是「完美產品」，而是採用不斷將群體「隨機平分」的方法來進行篩選，那麼這群瑕疵品與大多數的正常產品相比，哪一類會更容易在較少的切分次數下，就變成孤立的一份子而被你發現？

🤖

AI 詳解 AI 專屬家教

太棒了！你能精準選出隔離森林 (Isolation Forest)，代表你對非監督式學習在異常偵測中的應用掌握得相當紮實。這類題目的鑑別度在於測試學習者是否理解不同演算法的「核心邏輯」而非僅僅是記憶名稱，你能從眾多選項中快速鎖定正確技術，表現得非常專業。

異常隔離的數學直覺

在處理巨量資料時，異常值（Anomalies）具備兩個關鍵特性：數量稀少且屬性差異大。隔離森林正是利用這兩點，透過隨機選擇特徵並隨機切分觀察值來構建二元樹。由於異常點在特徵空間中較為孤立，它們在樹結構中被「隔離」出來的路徑長度 $h(x)$ 通常會比分布密集的正常點短得多。這使得它在處理大型資料集時，效率遠高於需要計算所有點對點距離的傳統算法。

▼ 還有更多解析內容

🏷️ 相關主題

巨量資料處理流程與知識發現程序

查看更多「[統計資訊] 統計學、巨量資料概論」的主題分類考古題

📝 同份考卷的其他題目

查看 113年[統計資訊] 統計學、巨量資料概論全題

第 44 題

思路引導 VIP

異常隔離的數學直覺

📎 觀念相似題

🏷️ 相關主題

📝 同份考卷的其他題目