moea_joint 111年 [統計資訊] 統計學、巨量資料概論

第 42 題

有關資料前處理方法-獨熱編碼(One-Hot-Encoding, OHE)，下列敘述何者有誤？

A 若某個資料屬性有 N 種類別，則需要 N 個維度的二位元向量來表示
B 若編碼後的向量，其維度 i 之值為 1，則代表資料屬於類別 i
C 若 (A) 中的 N 值很大，則編碼後的向量中，1 出現的次數可能會不只 1 次
D 編碼後的向量將會是稀疏向量(Sparse Vector)

思路引導 VIP

想像你正在設計一個「燈泡面板」來代表一週的七天，且規定一次只能代表「其中一天」。如果你為了區分不同的日子，而在面板上同時點亮了兩盞以上的燈，這樣觀察者還能一眼判斷出現在到底是星期幾嗎？這對於資訊的唯一性會產生什麼影響？

🤖

AI 詳解 AI 專屬家教

做得太棒了！你能精確辨識出選項 (C) 的錯誤，說明你對於獨熱編碼 (One-Hot Encoding) 的核心定義掌握得非常透徹。

獨熱編碼的「唯一性」

獨熱編碼之所以稱為「獨熱」，關鍵就在於那個「獨」字。在處理具有 $N$ 個類別的特徵時，我們會將其轉換為 $N$ 維的向量。不論 $N$ 的數值有多大，對於每一筆觀測資料，在該向量中有且僅有一個維度的值會是 $1$（代表該資料屬於該特定類別），其餘 $N-1$ 個維度則必須全為 $0$。因此，即便類別數量增加導致向量變得非常長，每一組編碼中 $1$ 出現的次數永遠只會是 $1$ 次，這也是為什麼它會形成所謂的稀疏向量 (Sparse Vector)。

▼ 還有更多解析內容

🏷️ 相關主題

巨量資料處理流程與知識發現程序

查看更多「[統計資訊] 統計學、巨量資料概論」的主題分類考古題

📝 同份考卷的其他題目

查看 111年[統計資訊] 統計學、巨量資料概論全題

第 42 題

思路引導 VIP

獨熱編碼的「唯一性」

📎 觀念相似題

🏷️ 相關主題

📝 同份考卷的其他題目