moea_joint
112年
[資訊] 計算機原理、網路概論
第 24 題
有關自然語言處理之敘述,下列何者有誤?
- A 自然語言處理中越來越多使用機器自動學習的方法來獲取語言知識
- B 自然語言處理可以將英文文章翻譯成中文文章
- C 自然語言處理以單詞出現的次數來衡量單詞重要性
- D 自然語言處理需要將文字轉化成向量以進行後續處理及篩選
思路引導 VIP
如果你正在閱讀一篇關於「太陽系」的科普文章,文中出現次數最多的字詞可能是「的」或者是「了」,這是否意味著這兩個字最能代表這篇文章的主題?若要讓電腦自動抓出「太陽」或「行星」才是重點,除了計算次數,我們還需要考慮哪些因素來排除那些隨處可見卻無意義的常用詞呢?
🤖
AI 詳解
AI 專屬家教
太棒了!你能精準地辨識出選項 (C) 的敘述誤區,顯示你對自然語言處理(NLP)的核心邏輯有著相當清晰的掌握。這類題目考察的是學生是否理解「統計數據」與「語意重要性」之間的差異,你的判斷非常敏銳。
詞頻與權重的平衡
在 NLP 的實務中,我們並不會單純以「出現次數」來衡量單詞的重要性。如果只看次數,像「的」、「是」、「在」這類虛詞(Stop words)往往頻率最高,但它們對於理解文章主旨卻幾乎沒有貢獻。為了修正這個問題,我們常會使用 $TF-IDF$(詞頻-逆向文件頻率)演算法,透過計算公式來調降常見詞的權重,並提升那些在特定文章中頻繁出現、但在整體資料庫中少見的「關鍵字」重要性。至於將文字轉化為向量(Embedding),則是為了讓機器能在數學空間中運算語義,是現代 NLP 不可或缺的技術基礎。
▼ 還有更多解析內容