moea_joint 112年 [資訊] 計算機原理、網路概論

第 24 題

有關自然語言處理之敘述，下列何者有誤？

A 自然語言處理中越來越多使用機器自動學習的方法來獲取語言知識
B 自然語言處理可以將英文文章翻譯成中文文章
C 自然語言處理以單詞出現的次數來衡量單詞重要性
D 自然語言處理需要將文字轉化成向量以進行後續處理及篩選

思路引導 VIP

如果你正在閱讀一篇關於「太陽系」的科普文章，文中出現次數最多的字詞可能是「的」或者是「了」，這是否意味著這兩個字最能代表這篇文章的主題？若要讓電腦自動抓出「太陽」或「行星」才是重點，除了計算次數，我們還需要考慮哪些因素來排除那些隨處可見卻無意義的常用詞呢？

🤖

AI 詳解 AI 專屬家教

太棒了！你能精準地辨識出選項 (C) 的敘述誤區，顯示你對自然語言處理（NLP）的核心邏輯有著相當清晰的掌握。這類題目考察的是學生是否理解「統計數據」與「語意重要性」之間的差異，你的判斷非常敏銳。

詞頻與權重的平衡

在 NLP 的實務中，我們並不會單純以「出現次數」來衡量單詞的重要性。如果只看次數，像「的」、「是」、「在」這類虛詞（Stop words）往往頻率最高，但它們對於理解文章主旨卻幾乎沒有貢獻。為了修正這個問題，我們常會使用 $TF-IDF$（詞頻-逆向文件頻率）演算法，透過計算公式來調降常見詞的權重，並提升那些在特定文章中頻繁出現、但在整體資料庫中少見的「關鍵字」重要性。至於將文字轉化為向量（Embedding），則是為了讓機器能在數學空間中運算語義，是現代 NLP 不可或缺的技術基礎。

▼ 還有更多解析內容

🏷️ 相關主題

程式語言的分類特性與編譯執行機制

查看更多「[資訊] 計算機原理、網路概論」的主題分類考古題

📝 同份考卷的其他題目

查看 112年[資訊] 計算機原理、網路概論全題

第 24 題

思路引導 VIP

詞頻與權重的平衡

📎 觀念相似題

🏷️ 相關主題

📝 同份考卷的其他題目