免費開始練習
moea_joint 111年 [統計資訊] 統計學、巨量資料概論

第 42 題

有關資料前處理方法-獨熱編碼(One-Hot-Encoding, OHE),下列敘述何者有誤?
  • A 若某個資料屬性有 N 種類別,則需要 N 個維度的二位元向量來表示
  • B 若編碼後的向量,其維度 i 之值為 1,則代表資料屬於類別 i
  • C 若 (A) 中的 N 值很大,則編碼後的向量中,1 出現的次數可能會不只 1 次
  • D 編碼後的向量將會是稀疏向量(Sparse Vector)

思路引導 VIP

想像你正在設計一個「燈泡面板」來代表一週的七天,且規定一次只能代表「其中一天」。如果你為了區分不同的日子,而在面板上同時點亮了兩盞以上的燈,這樣觀察者還能一眼判斷出現在到底是星期幾嗎?這對於資訊的唯一性會產生什麼影響?

🤖
AI 詳解 AI 專屬家教

做得太棒了!你能精確辨識出選項 (C) 的錯誤,說明你對於獨熱編碼 (One-Hot Encoding) 的核心定義掌握得非常透徹。

獨熱編碼的「唯一性」

獨熱編碼之所以稱為「獨熱」,關鍵就在於那個「獨」字。在處理具有 $N$ 個類別的特徵時,我們會將其轉換為 $N$ 維的向量。不論 $N$ 的數值有多大,對於每一筆觀測資料,在該向量中有且僅有一個維度的值會是 $1$(代表該資料屬於該特定類別),其餘 $N-1$ 個維度則必須全為 $0$。因此,即便類別數量增加導致向量變得非常長,每一組編碼中 $1$ 出現的次數永遠只會是 $1$ 次,這也是為什麼它會形成所謂的稀疏向量 (Sparse Vector)

▼ 還有更多解析內容

🏷️ 相關主題

巨量資料分析流程與資料品質管理
查看更多「[統計資訊] 統計學、巨量資料概論」的主題分類考古題