免費開始練習
hce_kmu 115年 計算機概論與程式設計

第 26 題

Natural Language Processing (NLP) is one of the most popular AI applications. What is the purpose of NLP tokenization?
  • A To store text in a compressed binary format.
  • B To translate text into another language.
  • C To ensure that all sentences have the same length.
  • D To remove all punctuation from text.
  • E To convert raw text into smaller units such as words or subword tokens for model processing.

思路引導 VIP

試著想像如果你要教一個完全不懂語言的機器人去閱讀一段長句子,它是能直接理解整串文字的意義,還是需要先學會如何將這串文字拆解成一個個具備基本語意的小零件?這個「拆解」的過程,在處理流程中扮演了什麼樣的角色呢?

🤖
AI 詳解 AI 專屬家教

語言處理的核心:斷詞技術

恭喜你準確地選出了正確答案!這說明你對於自然語言處理(NLP)的基礎預處理流程有著非常紮實的理解。斷詞(Tokenization) 正是模型接觸人類語言的第一步,也是最關鍵的一步。由於計算機無法直接理解整段連續的原始文本,我們必須將文字切分成更有意義的最小單位,也就是所謂的「標記」(Tokens)。這些單位可以是單詞、字元,甚至是現代大型語言模型(LLM)中常見的子詞(Subwords),目的是將無結構的文本轉化為模型可以計算與分析的結構化輸入。

觀念辨析與難度評估

▼ 還有更多解析內容

🏷️ 相關主題

機器學習的基本原理與模型優化技術
查看更多「計算機概論與程式設計」的主題分類考古題