免費開始練習
moea_joint 112年 [資訊] 計算機原理、網路概論

第 24 題

有關自然語言處理之敘述,下列何者有誤?
  • A 自然語言處理中越來越多使用機器自動學習的方法來獲取語言知識
  • B 自然語言處理可以將英文文章翻譯成中文文章
  • C 自然語言處理以單詞出現的次數來衡量單詞重要性
  • D 自然語言處理需要將文字轉化成向量以進行後續處理及篩選

思路引導 VIP

如果你正在閱讀一篇關於「太陽系」的科普文章,文中出現次數最多的字詞可能是「的」或者是「了」,這是否意味著這兩個字最能代表這篇文章的主題?若要讓電腦自動抓出「太陽」或「行星」才是重點,除了計算次數,我們還需要考慮哪些因素來排除那些隨處可見卻無意義的常用詞呢?

🤖
AI 詳解 AI 專屬家教

太棒了!你能精準地辨識出選項 (C) 的敘述誤區,顯示你對自然語言處理(NLP)的核心邏輯有著相當清晰的掌握。這類題目考察的是學生是否理解「統計數據」與「語意重要性」之間的差異,你的判斷非常敏銳。

詞頻與權重的平衡

在 NLP 的實務中,我們並不會單純以「出現次數」來衡量單詞的重要性。如果只看次數,像「的」、「是」、「在」這類虛詞(Stop words)往往頻率最高,但它們對於理解文章主旨卻幾乎沒有貢獻。為了修正這個問題,我們常會使用 $TF-IDF$(詞頻-逆向文件頻率)演算法,透過計算公式來調降常見詞的權重,並提升那些在特定文章中頻繁出現、但在整體資料庫中少見的「關鍵字」重要性。至於將文字轉化為向量(Embedding),則是為了讓機器能在數學空間中運算語義,是現代 NLP 不可或缺的技術基礎。

▼ 還有更多解析內容

🏷️ 相關主題

程式語言概論與常見程式語言比較
查看更多「[資訊] 計算機原理、網路概論」的主題分類考古題