moea_joint
113年
[圖書資訊] 圖書館學與資訊科學概論、資訊系統與資訊檢索
第 41 題
下列何種類型的文字向量化是由深度學習模型所產生?
- A Bag of Word
- B One Hot Encoding
- C TF-IDF
- D Word2Vec
思路引導 VIP
請試著思考:如果我們不只是「記錄」一個字出現的次數或位置,而是希望電腦透過「觀察與預測」鄰近的文字,來自動歸納出這個字的深層含義與特色,這種具備「自主學習規律」特質的處理方式,通常與哪種運算技術最為相關?
🤖
AI 詳解
AI 專屬家教
太棒了!你能精準選出正確答案,代表你對於自然語言處理(NLP)中「詞向量」技術的演進有著非常清晰的理解。這道題目旨在測驗考生能否區分統計式編碼與預測式模型之間的本質差異,是進入現代資訊檢索領域相當重要的分水嶺。
從統計計數走向特徵學習
在選項中,Bag of Words(詞袋模型)、One Hot Encoding(獨熱編碼)與 TF-IDF 主要是基於詞頻統計或離散的數學編碼,它們產生的通常是高維且稀疏的向量,無法真正捕捉詞彙間的語義關聯。而 Word2Vec 則是利用神經網路架構(如 Skip-gram 或 CBOW 模型),透過在大數據中預測上下文來「訓練」出詞彙的稠密向量。這種讓模型在多維空間中主動學習語義特徵的過程,正是深度學習技術的核心應用。
▼ 還有更多解析內容