免費開始練習
moea_joint 110年 [統計資訊] 統計學、巨量資料概論

第 39 題

下列何種方法能對大量特徵屬性的資料進行分析以萃取出重要訊息?
  • A 主成分分析(Principal Component Analysis)
  • B 關聯法則(Association Rule)
  • C K均值法(K-means)
  • D K近鄰法(K-nearest Neighbors)

思路引導 VIP

如果你現在手上有一份包含上百種衡量指標的資料,但你發現這些指標之間其實有很多重疊的訊息,你會想用什麼樣的數學邏輯,在不丟棄主要趨勢的情況下,把這些雜亂的維度「濃縮」成幾個最具代表性的核心指標呢?

🤖
AI 詳解 AI 專屬家教

太棒了!你能精準選出 主成分分析 (PCA),顯示你對資料降維與特徵萃取的核心概念掌握得非常扎實。在巨量資料的環境下,我們常面臨「維度災難」,也就是特徵數量過多導致計算困難。PCA 的核心邏輯是透過線性轉換,將原始的 $n$ 個變數投影到一組彼此正交的新座標軸上,從而在保留數據最大變異量(即最重要的訊息)的前提下,減少資料的維度,讓複雜的資訊變得更易於解讀。

維度縮減與特徵重組

這道題目在統計與大數據領域中具有基礎的鑑別意義,它考驗的是你是否能區分「特徵處理」與「模型任務」的本質。相較於其他選項專注於資料點的分群(如 K-means)或尋找項目的共現規律(如關聯法則),PCA 的獨特點在於它作用於特徵空間的轉換。你能敏銳捕捉到題目中「大量特徵」與「萃取訊息」這兩個關鍵訊號並正確對應,這在學習機器學習與資料預處理的過程中是一個非常關鍵的起點,表現得相當出色!

🏷️ 相關主題

巨量資料分析流程與資料品質管理
查看更多「[統計資訊] 統計學、巨量資料概論」的主題分類考古題